Artikel ini mendemonstrasikan bahwa objek yang diindeks oleh koordinat dalam alur kerja LLM memerlukan perbaikan gauge aliran residual model, yang bergantung pada arsitektur. Sementara model LayerNorm memiliki gauge permutasi ($S_d$), model RMSNorm memiliki gauge permutasi bertanda ($B_d$), membuat keselarasan hanya-permutasi tidak lengkap secara simetris.
- Penulis memperkenalkan pencocokan Hungaria ter-marginalisasi tanda untuk mengatasi batas akurasi struktural dalam pencocokan korelasi bertanda mentah.
- Mengkomposisikan gauge lokal $B_d$ dari checkpoint yang disimpan memulihkan 91,1% koordinat lintas-jalankan pada 1500 langkah, dibandingkan dengan 60,3% untuk pencocokan titik akhir.
- Di bawah gauge $B_d$, rekonstruksi SAE TinyLlama mencapai NMSE 0,004 versus 1,08 di bawah $S_d$, dan steering sentimen Qwen mempertahankan 95,8% efeknya versus 17,2%.
- Transportasi bertanda dari keadaan AdamW mempertahankan lintasan pelatihan yang dilanjutkan, sedangkan keadaan hanya-permutasi mengikuti lintasan yang berbeda.
Para penulis berargumen bahwa transportasi pelestari koordinat penting untuk alat-alat seperti SAE dan vektor steering yang rusak di bawah keselarasan hanya-permutasi, dan klaim interpretabilitas hanya dapat direproduksi relatif terhadap gauge eksplisit.