साइन-पर्म्यूटेशन गेज फिक्स RMSNorm ट्रान्सफॉर्मर्स के लिए कोऑर्डिनेट ट्रांसपोर्ट

लेख में दिखाया गया है कि LLM वर्कफ़्लो में कोऑर्डिनेट-इंडेक्स्ड ऑब्जेक्ट्स को मॉडल के रेसिडुअल-स्ट्रीम गेज को फिक्स करने की आवश्यकता होती है, जो आर्किटेक्चर-निर्भर है। जबकि LayerNorm मॉडल्स में एक पर्म्यूटेशन गेज ($S_d$) होता है, RMSNorm मॉडल्स में एक साइन-पर्म्यूटेशन गेज ($B_d$) होता है, जिससे केवल पर्म्यूटेशन वाले एलाइनमेंट सममिति-अपूर्ण हो जाते हैं।

लेखकों ने रॉ साइन-कोरिलेशन मैचिंग में संरचनात्मक सटीकता की छतों को दूर करने के लिए साइन-मार्जिनालाइज्ड हंगेरियन मैचिंग पेश किया है।
सेव्ड-चेकपॉइंट लोकल $B_d$ गेज्स को कंपोज़ करने से 1500 स्टेप्स पर क्रॉस-रन कोऑर्डिनेट्स का 91.1% पुनर्स्थापित होता है, जबकि एंडपॉइंट मैचिंग के लिए यह 60.3% है।
$B_d$ गेज के तहत, TinyLlama SAE रिकंस्ट्रक्शन NMSE में 0.004 प्राप्त करता है, जबकि $S_d$ के तहत यह 1.08 होता है, और Qwen सेंटिमेंट स्टीयरिंग अपने प्रभाव का 95.8% बनाए रखता है, जबकि 17.2% के विपरीत।
AdamW स्टेट का साइन ट्रांसपोर्ट पुनः शुरू की गई ट्रेनिंग ट्रैजेक्ट्री को संरक्षित करता है, जबकि केवल पर्म्यूटेशन वाला स्टेट एक अलग ट्रैजेक्ट्री का अनुसरण करता है।

लेखकों का तर्क है कि SAEs और स्टीयरिंग वेक्टर्स जैसे टूल्स के लिए कोऑर्डिनेट-प्रेसर्विंग ट्रांसपोर्ट आवश्यक है, जो केवल पर्म्यूटेशन वाले एलाइनमेंट के तहत टूट जाते हैं, और इंटरप्रिटबिलिटी दावे केवल एक स्पष्ट गेज के सापेक्ष ही पुनरुत्पादनीय हैं।