Les chercheurs proposent DASH (Drift Aware advantage SHaping), une méthode qui attribue un crédit au niveau des segments aux traces de raisonnement en fonction du fait que chaque étape se rapproche ou s'éloigne de la bonne réponse. En utilisant les engagements de réponse intermédiaires comme proxy pour la productivité, l'approche identifie où l'autoréflexion aide ou nuit sans nécessiter d'annotations au niveau des étapes coûteuses.
- DASH compare les candidats de réponse finale dans une trace à la vérité terrain pour déterminer si la réflexion ultérieure est productive.
- Sur des benchmarks mathématiques de niveau compétition, DASH atteint 50,8 % de précision sur AIME25, surpassant la baseline GRPO de 45,4 %.
- La méthode réduit les comportements de sur-réflexion tels que l'hésitation et l'auto-contradiction tout en permettant une autocorrection plus productive.
Cette approche traite le problème des chaînes prolongées de comportements improductifs qui consomment des tokens sans améliorer les réponses, même en contrôlant la longueur de la réponse.