研究者らは、各ステップが正解に近づくか遠ざかるかに基づいて推論トレースにセグメントレベルの信用を割り当てる手法であるDASH(Drift Aware advantage SHaping)を提案した。中間的な回答コミットメントを生産性の代理指標として使用することで、このアプローチは高コストなステップレベルのアノテーションを必要とせずに、自己反省が役立つ場合と害になる場合を特定する。
- DASHは、その後の反省が生産的かどうかを判断するために、トレース内の最終回答候補と正解を比較する。
- 競技レベルの数学ベンチマークにおいて、DASHはAIME25で50.8%の精度を達成し、45.4%のGRPOベースラインを上回った。
- この手法は、曖昧さや自己矛盾などの過剰思考行動を削減しつつ、より生産的な自己修正を可能にする。
このアプローチは、応答長を制御しても回答の改善につながらずトークンを消費する非生産的な行動の連鎖という問題に対処している。