연구자들은 각 단계가 정답에 가까워지는지 아니면 멀어지는지에 기반하여 추론 트레이스에 세그먼트 수준의 신용을 할당하는 방법인 DASH(Drift Aware advantage SHaping)를 제안했습니다. 중간 답변 확약을 생산성의 대리 지표로 사용함으로써, 이 접근 방식은 비용이 많이 드는 단계 수준 주석이 필요하지 않고 자기 성찰이 도움이 되는지 해가 되는지를 식별합니다.
- DASH는 후속 성찰이 생산적인지 여부를 결정하기 위해 트레이스의 최종 답변 후보와 정답을 비교합니다.
- 경쟁 수준의 수학 벤치마크에서 DASH는 AIME25에서 50.8%의 정확도를 달성하여 45.4%의 GRPO 기준선을 능가했습니다.
- 이 방법은 우유부단함과 자기 모순과 같은 과잉 사고 행동을 줄이면서 더 생산적인 자기 수정을 가능하게 합니다.
이 접근 방식은 응답 길이를 통제하더라도 답변을 개선하지 않고 토큰을 소비하는 비생산적 행동의 연쇄적인 문제를 해결합니다.