शोधकर्ताओं ने QuasiMoTTo पेश किया, एक विधि जो स्वतंत्र नमूनों के बजाय सहसंबद्ध नमूनों का उपयोग करके भाषा मॉडल इन्फरेंस और रिइन्फोर्समेंट लर्निंग में सैंपल दक्षता को बढ़ाती है। यह दृष्टिकोण ऑटोरिग्रेसिव सैंपलिंग को inverse-CDF सैंपलिंग के रूप में पुनः पैरामीटराइज करता है और आउटपुट स्पेस में उन्हें अधिक समान रूप से फैलाने के लिए quasi-Monte Carlo (QMC) के साथ अंतर्निहित यूनिफॉर्म नमूने खींचता है।

  • QuasiMoTTo चार तर्क बेंचमार्क्स पर i.i.d. pass@k सटीकता को 25-47% कम नमूनों के साथ मिलाता है।
  • विधि अक्सर किसी भी मार्जिनल-प्रिजर्विंग सैंपलर के लिए मान्य pass@k के ऊपरी बॉन्ड को संतृप्त करती है।
  • पॉलिसी-ग्रेडिएंट RL (GRPO) में, QuasiMoTTo 50% कम ट्रेनिंग स्टेप्स के साथ i.i.d. प्रदर्शन को मिलाता है।

ये लाभ उच्च कवरेज से होते हैं, जो प्रति बैच एक मजबूत लर्निंग सिग्नल देता है।