Исследователи предлагают DASH (Drift Aware advantage SHaping), метод, который присваивает кредит на уровне сегментов трассам рассуждений в зависимости от того, приближает ли каждый шаг к правильному ответу или отдаляет от него. Используя промежуточные обязательства по ответу как прокси для продуктивности, подход определяет, где саморефлексия помогает, а где вредит, без необходимости дорогостоящей аннотации на уровне шагов.

  • DASH сравнивает финальные кандидаты ответов в трассе с эталонным значением (ground truth), чтобы определить, является ли последующая рефлексия продуктивной.
  • На математических бенчмарках соревновательного уровня DASH достигает точности 50.8% на AIME25, превосходя базовый уровень GRPO в 45.4%.
  • Метод снижает поведение чрезмерного обдумывания, такое как оговорки и самопротиворечия, одновременно позволяя осуществлять более продуктивную самкоррекцию.

Этот подход решает проблему протяженных цепей непродуктивного поведения, которые потребляют токены без улучшения ответов, даже при контроле длины ответа.