लेखकों ने ट्रान्सफॉर्मर्स में मानक फ़ीड-फॉरवर्ड नेटवर्क (FFN) के लिए एक पैरामीटर-तटस्थ प्रतिस्थापन प्रस्तावित किया है, जिसे NC-FFN कहा जाता है, जो प्रतिच्छेदन और सीमित धनात्मक निषेध जैसे स्पष्ट फ़जी सेट ऑपरेशन का उपयोग करता है। यह डिज़ाइन हर छिपी हुई इकाई को एक स्पष्ट तार्किक रूप वहन करने की अनुमति देता है, जबकि स्केल पर GELU बेसलाइन के पेरप्लेक्सिटी को बनाए रखता है।
तर्क स्थानीयकरण और क्षय होते प्रदर्शन को संबोधित करने के लिए, मॉडल में सीखी गई भूल दरों के साथ क्रम क्वांटिफायर्स का एक ब्लॉक शामिल है। यह दृष्टिकोण प्रशिक्षण के शुरुआती चरण में व्याकरण की कमी को पुनर्स्थापित करता है और LAMBADA स्कोर में मामूली सुधार करता है। परिणामी FFN पठनीय हो जाता है, जिसमें इकाइयां व्याकरणिक लाइसेंसिंग डिटेक्टर के रूप में कार्य करती हैं जो तुलनात्मक या नकारात्मक-ध्रुवीय आइटम जैसे लाइसेंसर पर फायर होती हैं ताकि लाइसेंस प्राप्त शब्दों की भविष्यवाणी की जा सके। यह कार्य इस बात के लिए एक पठनीय, निर्माण द्वारा व्याख्या योग्य तंत्र प्रदान करता है कि ट्रान्सफॉर्मर FFN भाषा को कैसे लाइसेंस देते हैं, जो निरूपण और कार्य दोनों का विवरण प्रस्तुत करते हैं।