लेख में दिखाया गया है कि LLM वर्कफ़्लो में कोऑर्डिनेट-इंडेक्स्ड ऑब्जेक्ट्स को मॉडल के रेसिडुअल-स्ट्रीम गेज को फिक्स करने की आवश्यकता होती है, जो आर्किटेक्चर-निर्भर है। जबकि LayerNorm मॉडल्स में एक पर्म्यूटेशन गेज ($S_d$) होता है, RMSNorm मॉडल्स में एक साइन-पर्म्यूटेशन गेज ($B_d$) होता है, जिससे केवल पर्म्यूटेशन वाले एलाइनमेंट सममिति-अपूर्ण हो जाते हैं।

  • लेखकों ने रॉ साइन-कोरिलेशन मैचिंग में संरचनात्मक सटीकता की छतों को दूर करने के लिए साइन-मार्जिनालाइज्ड हंगेरियन मैचिंग पेश किया है।
  • सेव्ड-चेकपॉइंट लोकल $B_d$ गेज्स को कंपोज़ करने से 1500 स्टेप्स पर क्रॉस-रन कोऑर्डिनेट्स का 91.1% पुनर्स्थापित होता है, जबकि एंडपॉइंट मैचिंग के लिए यह 60.3% है।
  • $B_d$ गेज के तहत, TinyLlama SAE रिकंस्ट्रक्शन NMSE में 0.004 प्राप्त करता है, जबकि $S_d$ के तहत यह 1.08 होता है, और Qwen सेंटिमेंट स्टीयरिंग अपने प्रभाव का 95.8% बनाए रखता है, जबकि 17.2% के विपरीत।
  • AdamW स्टेट का साइन ट्रांसपोर्ट पुनः शुरू की गई ट्रेनिंग ट्रैजेक्ट्री को संरक्षित करता है, जबकि केवल पर्म्यूटेशन वाला स्टेट एक अलग ट्रैजेक्ट्री का अनुसरण करता है।

लेखकों का तर्क है कि SAEs और स्टीयरिंग वेक्टर्स जैसे टूल्स के लिए कोऑर्डिनेट-प्रेसर्विंग ट्रांसपोर्ट आवश्यक है, जो केवल पर्म्यूटेशन वाले एलाइनमेंट के तहत टूट जाते हैं, और इंटरप्रिटबिलिटी दावे केवल एक स्पष्ट गेज के सापेक्ष ही पुनरुत्पादनीय हैं।