DASH通过分段级信用分配减少推理语言模型的过度思考

研究人员提出了 DASH（Drift Aware advantage SHaping），一种根据每一步是朝向还是远离正确答案，为推理轨迹分配分段级信用的方法。通过使用中间答案承诺作为生产力的代理，该方法确定了自我反思在何处有帮助或在何处有害，而无需昂贵的步骤级标注。

这种方法解决了冗长的无生产力行为链的问题，这些行为链会消耗 token 却无法改善答案，即使控制了响应长度也是如此。

Benchmarks