Review Residuals ने Transformers के लिए अपडेट-शर्ती गेटिंग पेश की

लेखकों ने Review Residuals का प्रस्ताव दिया है, एक तंत्र जो प्रत्येक उपपरत के अपडेट को सीखा गए, इनपुट-निर्भर गेट द्वारा स्केल करता है जो वर्तमान स्थिति और प्रस्तावित अपडेट दोनों पर शर्ती है। यह दृष्टिकोण प्रतिबद्ध करने से पहले अपडेट की विश्वसनीयता का मूल्यांकन करने का लक्ष्य रखता है, मानक अवशेष कनेक्शन की सीमा को संबोधित करता है जो हमेशा एक निश्चित गुणांक के साथ अपडेट जोड़ते हैं।

गेटिंग फ़ंक्शन पिछले छिपी हुई स्थिति और प्रस्तावित अपडेट दोनों पर लागू वजन के RMSNorm का साइगमोइड उपयोग करता है।
एक उत्तल (हाईवे-शैली) गेट रूप ~20 परतों से परे ग्राडिएंट को विलीन हो जाता है, जबकि जोड़ने वाला रूप सभी परीक्षण गहराई पर स्थिर रूप से प्रशिक्षित करता है।
पांच आकारों (60M-1B पैरामीटर) में शून्य से प्रशिक्षित मॉडल छोटे स्केल पर कोई लाभ नहीं दिखाते हैं।
590M पैरामीटर पर, Review Residuals पैरामीटर-मैच्ड हाईवे गेट्स और मानक अवशेषों (p<0.05) से महत्वपूर्ण रूप से बेहतर प्रदर्शन करते हैं।
प्रदर्शन लाभ मॉडल के आकार के साथ बढ़ता है, 1B स्केल पर एक बड़ा लाभ दिखाता है।

लेखक इसे महत्वपूर्ण मानते हैं क्योंकि यह मानक अवशेष कनेक्शन के सापेक्ष स्थिर, स्केलेबल सुधार प्रदान करता है जो केवल बड़े मॉडल स्केल पर ही उभरता है।