Para peneliti mengusulkan DASH (Drift Aware advantage SHaping), sebuah metode yang menugaskan kredit tingkat segmen ke jejak penalaran berdasarkan apakah setiap langkah bergerak menuju atau menjauh dari jawaban yang benar. Dengan menggunakan komitmen jawaban perantara sebagai proksi untuk produktivitas, pendekatan ini mengidentifikasi di mana refleksi diri membantu versus merugikan tanpa memerlukan anotasi tingkat langkah yang mahal.

  • DASH membandingkan kandidat jawaban akhir dalam jejak dengan kebenaran dasar untuk menentukan apakah refleksi selanjutnya produktif.
  • Pada benchmark matematika tingkat kompetisi, DASH mencapai akurasi 50,8% pada AIME25, mengungguli baseline GRPO sebesar 45,4%.
  • Metode ini mengurangi perilaku overthinking seperti keraguan dan kontradiksi diri sambil memungkinkan koreksi diri yang lebih produktif.

Pendekatan ini mengatasi masalah rantai perilaku tidak produktif yang panjang yang mengonsumsi token tanpa meningkatkan jawaban, bahkan ketika mengontrol panjang respons.