शोधकर्ता स्टेट-प्रिडिक्शन सेपरेशन हाइपोथेसिस का प्रस्ताव करते हैं, यह तर्क देते हुए कि अगले टोकन की भविष्यवाणी को स्टेट स्टोरेज से अलग करने से भाषा मॉडलिंग प्रदर्शन बेहतर होता है। उन्होंने इन कार्यों को अलग करने के लिए दो कंप्यूटेशन स्ट्रीम का उपयोग करके एक ट्रान्सफॉर्मर वैरिएंट डिज़ाइन किया और विभिन्न स्केल पर प्रीट्रेनिंग प्रयोग किए।
- प्रस्तावित आर्किटेक्चर मानक ट्रान्सफॉर्मर्स की तुलना में लगातार बेहतर डेटा और कंप्यूट दक्षता प्रदान करता है।
- यह प्रीट्रेनिंग के दौरान वैलिडेशन लॉस को सुधारता है।
- यह डाउनस्ट्रीम टास्क पर औसतन मानक ट्रान्सफॉर्मर्स से 2--3 प्रतिशत अंक से बेहतर प्रदर्शन करता है।
- प्रायोगिक विश्लेषण भ्रामक कारकों को खारिज करता है और इस डिज़ाइन द्वारा आवश्यक ग्रेडिएंट में मौलिक अंतर दिखाता है।
लेखक इसे महत्वपूर्ण मानते हैं क्योंकि यह कंप्यूटेशनल भूमिकाओं के आर्किटेक्चरल सेपरेशन के माध्यम से मॉडल प्रदर्शन को बढ़ाने का एक तरीका प्रदान करता है।