Pesquisadores propõem o DASH (Drift Aware advantage SHaping), um método que atribui crédito em nível de segmento aos rastros de raciocínio com base se cada passo se aproxima ou se afasta da resposta correta. Ao usar compromissos intermediários de resposta como um proxy para produtividade, a abordagem identifica onde a autorreflexão ajuda versus prejudica sem exigir anotações custosas em nível de etapa.
- O DASH compara candidatos de resposta final em um rastro com a verdade fundamental (ground truth) para determinar se a reflexão subsequente é produtiva.
- Em benchmarks matemáticos de nível competitivo, o DASH alcança 50,8% de precisão no AIME25, superando a linha de base GRPO de 45,4%.
- O método reduz comportamentos de excesso de raciocínio, como hesitação e autocontradição, permitindo ao mesmo tempo uma autocorreção mais produtiva.
Esta abordagem aborda o problema de cadeias estendidas de comportamento improdutivo que consomem tokens sem melhorar as respostas, mesmo controlando o comprimento da resposta.