शोधकर्ता DiscoLoop का प्रस्ताव करते हैं, जो एक लूपिंग ट्रांसफ़ॉर्मर आर्किटेक्चर है जो एकल फॉरवर्ड पास के भीतर दो-हॉप तर्क को सुधारने के लिए विविक्त एम्बेडिंग चैनलों और सतत छिपी हुई अवस्था चैनलों दोनों को ले जाता है। विधि अतिरिक्त प्रशिक्षण के बिना ब्रिज टोकन एम्बेडिंग्स के साथ छिपी हुई अवस्थाओं को फिर से संरेखित करके मानक लूप्ड ट्रांसफ़ॉर्मर्स में पाए गए प्रतिनिधित्व बॉटलनेक को संबोधित करती है।
- मान्य गैर-पुनरावर्ती ट्रांसफ़ॉर्मर्स गहराई-स्थानीय भंडारण समस्याओं से ग्रस्त हैं जहां पहले परतों में सीखे गए तथ्य दूसरे हॉप पुनर्प्राप्ति के लिए उपलब्ध नहीं होते हैं।
- पिछले लूप्ड ट्रांसफ़ॉर्मर्स अपूर्ण रूप से सामान्यीकृत करते थे क्योंकि सही ढंग से डिकोड किए गए एंटिटीज़ होने के बावजूद छिपी हुई अवस्थाएं ब्रिज टोकन एम्बेडिंग्स के साथ खराब रूप से संरेखित रहती थीं।
- DiscoLoop एक मिश्रित-चैनल डिज़ाइन का उपयोग करता है जो प्रतीकात्मक और कृत्रिम भाषा कार्यों पर उल्लेखनीय रूप से कम प्रशिक्षण चरणों के साथ लगभग पूर्ण सटीकता प्राप्त करता है।
- वास्तविक दुनिया के प्रीट्रेनिंग में, आर्किटेक्चर लूप्ड-ट्रांसफ़ॉर्मर बेलाइनों की तुलना में कम प्रशिक्षण हानि और मजबूत बेंचमार्क प्रदर्शन प्राप्त करता है।
लेखकों का मानना है कि यह महत्वपूर्ण है क्योंकि मिश्रित-चैनल डिज़ाइन व्यावहारिक भाषा मॉडलिंग में स्थानांतरित हो जाता है, जिससे मॉडल बहु-चरण तर्क को अधिक प्रभावी ढंग से आंतरिक रूप से ग्रहण कर सकते हैं।