研究人员提出了 DASH(Drift Aware advantage SHaping),一种根据每一步是朝向还是远离正确答案,为推理轨迹分配分段级信用的方法。通过使用中间答案承诺作为生产力的代理,该方法确定了自我反思在何处有帮助或在何处有害,而无需昂贵的步骤级标注。

  • DASH 将轨迹中的最终答案候选项与真实值(ground truth)进行比较,以确定后续的反思是否具有生产力。
  • 在竞赛级数学基准测试中,DASH 在 AIME25 上达到了 50.8% 的准确率,优于 GRPO 基线的 45.4%。
  • 该方法减少了过度思考行为(如含糊其辞和自相矛盾),同时实现了更具生产力的自我纠正。

这种方法解决了冗长的无生产力行为链的问题,这些行为链会消耗 token 却无法改善答案,即使控制了响应长度也是如此。