Tencent-Hunyuan ने GEAR (Guided End-to-End AutoRegression) पेश किया है, एक विधि जो इमेज सिंथेसिस को बेहतर बनाने के लिए एक वेक्टर-क्वांटाइज़्ड टोकनाइज़र और एक ऑटोरेग्रेसिव जनरेटर को संयुक्त रूप से प्रशिक्षित करती है। पारंपरिक दो-चरण वाले दृष्टिकोणों के विपरीत, GEAR प्रतिनिधित्व अलाइनमेंट का उपयोग करता है ताकि AR मॉडल प्रशिक्षण के दौरान टोकनाइज़र को मार्गदर्शन दे सके।
- विधि कोडबुक असाइनमेंट के डुअल रीड-आउट का उपयोग करके ग्रेडिएंट फ्लो समस्याओं को हल करती है, कठोर नेक्स्ट-टोकन भविष्यवाणी को अलाइनमेंट के लिए एक विभेद्य सॉफ्ट शाखा के साथ जोड़ती है।
- यह दृष्टिकोण अलाइनमेंट की जिम्मेदारी को AR मॉडल पर स्थानांतरित करता है, जिससे इसके फीचर्स DINOv2 जैसे हो जाते हैं जबकि टोकनाइज़र कम ऐसा बन जाता है।
- GEAR ने LlamaGen-REPA बेलाइन की तुलना में ImageNet gFID अभिसरण को 10x तक तेज किया और बेहतर पैच-लेवल फीचर्स सीखे।
- तकनीक VQVAE, LFQ, और IBQ क्वांटाइज़र केAcross व्यापक है और टेक्स्ट-टू-इमेज जनरेशन का समर्थन करती है।
लेखकों का मानना है कि यह महत्वपूर्ण है क्योंकि यह जनरेटर को टोकनाइज़र के प्रतिनिधित्व पर सीधे प्रभाव डालने की अनुमति देकर तेज प्रशिक्षण अभिसरण और बेहतर फीचर लर्निंग सक्षम बनाता है।