Los investigadores proponen DASH (Drift Aware advantage SHaping), un método que asigna crédito a nivel de segmento a las trazas de razonamiento según si cada paso se acerca o aleja de la respuesta correcta. Al utilizar compromisos intermedios de respuesta como un proxy para la productividad, el enfoque identifica dónde la autorreflexión ayuda versus perjudica sin requerir anotaciones costosas a nivel de paso.
- DASH compara los candidatos de respuesta final en una traza con la verdad fundamental (ground truth) para determinar si la reflexión subsiguiente es productiva.
- En benchmarks matemáticos de nivel competitivo, DASH logra un 50.8% de precisión en AIME25, superando la línea base GRPO del 45.4%.
- El método reduce comportamientos de sobre-pensamiento como las vacilaciones y la autocontradicción, mientras permite una autocorrección más productiva.
Este enfoque aborda el problema de cadenas extendidas de comportamiento improductivo que consumen tokens sin mejorar las respuestas, incluso controlando la longitud de la respuesta.