लेखकों ने एक प्रतिद्वंद्वी जनरेटर-डिस्क्रिमिनेटर ढांचे का प्रस्ताव दिया है जो मानव प्रदर्शनों से सीखे गए संकेतों को शामिल करके सत्यापनीय पुरस्कारों के साथ पुनर्बल शिक्षण (RLVR) को बढ़ावा देता है, जिससे विविधता के पतन और असहज आउटपुट जैसे मुद्दों का समाधान होता है।
- जनरेटर एक डिस्क्रिमिनेटर से प्राप्त प्रतिद्वंद्वी पुरस्कार के साथ कार्य की सटीकता को अधिकतम करता है, जिसे मानव द्वारा लिखे गए आउटपुट और मॉडल द्वारा उत्पन्न आउटपुट में अंतर करने के लिए प्रशिक्षित किया गया है।
- यह दृष्टिकोण विभिन्न डोमेन में गैर-सत्यापनीय गुणों को सुधारता है, जबकि RLVR सटीकता लाभों को बनाए रखता है, जैसे कि बग ठीक करने में कम एडिट दूरी और कहानी जनरेशन में उच्च जीत दरें।
- यह विधि पुरस्कार हैकिंग बेंचमार्क्स पर मॉडल के गलत व्यवहार को लगभग पूरी तरह से समाप्त कर देती है, जबकि उच्च स्कोर बनाए रखती है, जो RL और सपervised फाइन-ट्यूनिंग (SFT) के बीच अंतराल को पाटता है।
यह दृष्टिकोण एक कार्य के सत्यापनीय और गैर-सत्यापनीय गुणों का संयुक्त अनुकूलन करने की एक स्केलेबल पथ प्रदान करता है।