DASH는 세그먼트 수준 신용 할당을 통해 추론 언어 모델의 과잉 사고를 줄입니다

연구자들은 각 단계가 정답에 가까워지는지 아니면 멀어지는지에 기반하여 추론 트레이스에 세그먼트 수준의 신용을 할당하는 방법인 DASH(Drift Aware advantage SHaping)를 제안했습니다. 중간 답변 확약을 생산성의 대리 지표로 사용함으로써, 이 접근 방식은 비용이 많이 드는 단계 수준 주석이 필요하지 않고 자기 성찰이 도움이 되는지 해가 되는지를 식별합니다.

DASH는 후속 성찰이 생산적인지 여부를 결정하기 위해 트레이스의 최종 답변 후보와 정답을 비교합니다.
경쟁 수준의 수학 벤치마크에서 DASH는 AIME25에서 50.8%의 정확도를 달성하여 45.4%의 GRPO 기준선을 능가했습니다.
이 방법은 우유부단함과 자기 모순과 같은 과잉 사고 행동을 줄이면서 더 생산적인 자기 수정을 가능하게 합니다.

이 접근 방식은 응답 길이를 통제하더라도 답변을 개선하지 않고 토큰을 소비하는 비생산적 행동의 연쇄적인 문제를 해결합니다.

벤치마크