يقدم Spec-AUF طريقة تدريب للمسودات الكتلية المقنعة في فك التشفير التخميني، حيث يُوَافق هدف التدريب مع سلوك الاستدلال عن طريق تقييد خسارة الانتروبيا المتقاطعة على البادئة المقبولة. تُقَرِّب هذه الطريقة الإشراف الحساس للبادئة من خلال الحفاظ على دعم الخسارة فقط حتى فشل التنبؤ الأول للمسودة، دون الحاجة إلى أهداف مساعدة أو تغييرات في خط أنابيب الاستدلال.

  • على Qwen3-8B، يرفع AUF متوسط الطول المنبعث لمسودة DFlash من 2.40 إلى 2.61 عبر ستة معايير قياس.
  • تنتقل الطريقة إلى الرأس ذي الفرعين المزدوجين لـ Domino، محسّنة الأداء من 2.56 إلى 2.68.
  • يصبح وزن التضاؤل الأسي للمواقع القياسي غير فعالٍ تجريبياً بمجرد أن يقوم AUF بقص الدعم.

يحسّن هذا التغيير معدلات قبول المسودة عن طريق ضمان إشراف النموذج فقط على الرموز التي تم الالتزام بها فعلياً أثناء التوليد.