SJTU-DENG-Lab ने मल्टी-ब्लॉक टीचर फोर्सिंग के साथ मल्टी-ब्लॉक डिफ्यूजन लैंग्वेज मॉडल्स का प्रस्ताव रखा

SJTU-DENG-Lab के शोधकर्ताओं ने इंटर-ब्लॉक समानांतरता के लिए लगातार ब्लॉकों के चलते सेट को एक साथ डीकोड करके सिंगल-ब्लॉक डिफ्यूजन मॉडल्स का विस्तार करने हेतु मल्टी-ब्लॉक डिफ्यूजन लैंग्वेज मॉडल्स (MBD-LMs) पेश किए हैं। इस दृष्टिकोण में प्रशिक्षण अवस्थाओं और इनफरेंस के बीच की खाई को पाटने हेतु पोस्ट-ट्रेनिंग के दौरान मल्टी-ब्लॉक टीचर फोर्सिंग (MultiTF) का उपयोग किया जाता है, साथ ही ब्लॉक बफ़र तंत्र पर आधारित अनुकूलित डीकोडिंग एल्गोरिदम भी शामिल है।

MBD-LMs रैंडमाइज्ड नॉइज-शेड्यूलर्स के साथ क्लीन प्रीफिक्सों पर शर्त लगाकर बाउंडेड नॉइज-ग्रुप्स पर प्रशिक्षण के लिए मल्टी-ब्लॉक टीचर फोर्सिंग का उपयोग करते हैं।
ब्लॉक बफ़र तंत्र प्रीफिक्स-कैश रीयूज़ को बनाए रखता है और इनपुट आकारों को स्थिर रखता है ताकि समानांतरता को वॉल-क्लॉक एक्सेलरेशन में बदला जा सके।
MBD-LLaDA2-Mini औसत टोकन्स पर फॉरवर्ड पास (TPF) को 3.47 से बढ़ाकर 6.19 कर देता है और औसत सटीकता को 79.95% से बढ़ाकर 81.03% कर देता है।
जब DMax के साथ संयुक्त किया जाता है, तो MBD-LLaDA2-Mini-DMax गणित और कोड बेंचमार्क्स पर केवल 1.02% सटीकता की कमी के साथ औसत TPF 9.34 प्राप्त करता है।

यह कार्य प्रशिक्षण वितरणों को इनफरेंस अवस्थाओं के साथ संरेखित करके मल्टी-ब्लॉक डिफ्यूजन का व्यावहारिक निष्पादन सक्षम बनाता है, जिससे डीकोडिंग थ्रूपुट में उल्लेखनीय वृद्धि होती है।