शोधकर्ताओं ने DASH (Drift Aware advantage SHaping) प्रस्तावित किया, एक विधि जो हर कदम सही उत्तर की ओर बढ़ रहा है या दूर जा रहा है, इसके आधार पर तर्क ट्रेस को खंड-स्तर क्रेडिट असाइन करती है। उत्पादकता के लिए एक प्रतिस्थापन (proxy) के रूप में मध्यवर्ती उत्तर प्रतिबद्धताओं का उपयोग करके, यह दृष्टिकोण पहचानता है कि आत्म-प्रतिबिंब कहाँ मदद करता है और कहाँ हानि पहुंचाता है, बिना महंगे चरण-स्तर एनोटेशन की आवश्यकता के।

  • DASH अगले प्रतिबिंब को उत्पादक निर्धारित करने के लिए एक ट्रेस में अंतिम उत्तर उम्मीदवारों की तुलना ground truth से करता है।
  • प्रतियोगिता-स्तर गणित बेंचमार्क पर, DASH ने AIME25 पर 50.8% सटीकता हासिल की, जो GRPO आधार रेखा के 45.4% से बेहतर है।
  • विधि अति-विचारशील व्यवहार जैसे संदेह और आत्म-विरोधाभास को कम करती है, जबकि अधिक उत्पादक स्व-सुधार को सक्षम बनाती है।

यह दृष्टिकोण अनुत्पादक व्यवहार के विस्तृत श्रृंखला की समस्या को संबोधित करता है जो उत्तरों में सुधार किए बिना टोकन खपत करते हैं, भले ही प्रतिक्रिया लंबाई पर नियंत्रण रखा गया हो।