يقترح المؤلفون إطار عمل مولّد-مميِّز معادياً يعزّز التعلم بالتعزيز بالمكافآت القابلة للتحقق (RLVR) من خلال دمج إشارات مُتعلَّمة من العروض البشرية لمعالجة مشكلات مثل انهيار التنوُّع والمخرجات غير الطبيعية.
- يهدف المولّد إلى تعظيم دقة المهمة جنباًُب مكافأة معادية مستخلصة من مميِّز تم تدريبه على التمييز بين المخرجات المكتوبة بشرياً وتلك التي ولّدها النموذج.
- يحسّن هذا النهج الخصائص غير القابلة للتحقق عبر المجالات مع الحفاظ على مكاسب دقة RLVR، مثل تقليل مسافة التعديل في إصلاح الأخطاء البرمجية وزيادة معدلات الفوز في توليد القصص.
- تقضي الطريقة تقريباً على سوء سلوك النماذج في معايير اختبارات استغلال المكافآت مع الحفاظ على درجات عالية، مما يسد الفجوة بين التعلم بالتعزيز (RL) والضبط الدقيق الخاضع للإشراف (SFT).
يوفر هذا النهج مساراً قابلاً للتوسع نحو التحسين المشترك للخصائص القابلة وغير القابلة للتحقق في مهمة ما.