BlockPilot: विसरण-आधारित अनुमानित डिकोडिंग के लिए इंस्टेंस-अनुकूलित पॉलिसी लर्निंग

BlockPilot विसरण-आधारित अनुमानित डिकोडिंग के लिए एक नमूना-अनुकूलित पॉलिसी पेश करता है जो प्रीफिलिंग प्रतिनिधित्वों के आधार पर इष्टतम इनफरेंस ब्लॉक आकार को गतिशील रूप से पूर्वानुमानित करता है। यह दृष्टिकोण प्रशिक्षण ब्लॉक आकार के चारों ओर इष्टतम मानों की स्थानीय संरचना का लाभ उठाकर निश्चित ब्लॉक आकारों की अर्ध-इष्टता को संबोधित करता है।

इंस्टेंस-अनुकूलित निर्णय तंत्र के साथ एक हल्की पॉलिसी लर्निंग समस्या के रूप में ब्लॉक आकार चयन को सूत्रबद्ध करता है।
प्रीफिलिंग चरण के बाद केवल एक बार पूर्वानुमान करता है, जिससे सहज एकीकरण और न्यूनतम ओवरहेड संभव होता है।
तापमान T=1 पर Qwen3-4B पर 5.92 की स्वीकृति लंबाई और 4.20× की गति प्राप्त करता है।

इस विधि को प्लग-एंड-प्ले के रूप में वर्णित किया गया है, जो महत्वपूर्ण कंप्यूटेशनल संसाधनों या आर्किटेक्चरल परिवर्तनों की आवश्यकता के बिना दक्षता में लगातार सुधार करता है।