QuasiMoTTo quasi-Monte Carlo का उपयोग करके इन्फरेंस कंप्यूट वेस्ट को कम करता है

शोधकर्ताओं ने QuasiMoTTo पेश किया, एक विधि जो स्वतंत्र नमूनों के बजाय सहसंबद्ध नमूनों का उपयोग करके भाषा मॉडल इन्फरेंस और रिइन्फोर्समेंट लर्निंग में सैंपल दक्षता को बढ़ाती है। यह दृष्टिकोण ऑटोरिग्रेसिव सैंपलिंग को inverse-CDF सैंपलिंग के रूप में पुनः पैरामीटराइज करता है और आउटपुट स्पेस में उन्हें अधिक समान रूप से फैलाने के लिए quasi-Monte Carlo (QMC) के साथ अंतर्निहित यूनिफॉर्म नमूने खींचता है।

QuasiMoTTo चार तर्क बेंचमार्क्स पर i.i.d. pass@k सटीकता को 25-47% कम नमूनों के साथ मिलाता है।
विधि अक्सर किसी भी मार्जिनल-प्रिजर्विंग सैंपलर के लिए मान्य pass@k के ऊपरी बॉन्ड को संतृप्त करती है।
पॉलिसी-ग्रेडिएंट RL (GRPO) में, QuasiMoTTo 50% कम ट्रेनिंग स्टेप्स के साथ i.i.d. प्रदर्शन को मिलाता है।

ये लाभ उच्च कवरेज से होते हैं, जो प्रति बैच एक मजबूत लर्निंग सिग्नल देता है।