يقترح الباحثون طريقة DASH (Drift Aware advantage SHaping)، وهي طريقة تُسند ائتمانًا على مستوى القطع إلى مسارات الاستدلال بناءً على ما إذا كانت كل خطوة تقترب من الإجابة الصحيحة أم تبتعد عنها. ومن خلال استخدام التزامات الإجابات الوسيطة كمؤشر إنتاجية، تحدد هذه الطريقة أين يساعد التأمل الذاتي وأين يضر دون الحاجة إلى تعليقات توضيحية على مستوى الخطوات مكلفة التكلفة.

  • تقارن DASH مرشحي الإجابة النهائية في المسار مع الحقيقة الأرضية لتحديد ما إذا كان التأمل اللاحق منتجًا.
  • على معايير الرياضيات على مستوى المسابقات، حققت DASH دقة بنسبة 50.8% على AIME25، متفوقةً على خط الأساس GRPO البالغ 45.4%.
  • تقلل الطريقة من سلوكيات الإفراط في التفكير مثل التردد والتناقض الذاتي مع تمكين تصحيح الذات الأكثر إنتاجية.

تعالج هذه النهج مشكلة سلاسل السلوك غير المنتج الممتدة التي تستهلك رموزًا دون تحسين الإجابات، حتى عند التحكم في طول الاستجابة.