Koreksi gauge permutasi bertanda mengkoordinasikan transportasi koordinat untuk Transformer RMSNorm

Artikel ini mendemonstrasikan bahwa objek yang diindeks oleh koordinat dalam alur kerja LLM memerlukan perbaikan gauge aliran residual model, yang bergantung pada arsitektur. Sementara model LayerNorm memiliki gauge permutasi ($S_d$), model RMSNorm memiliki gauge permutasi bertanda ($B_d$), membuat keselarasan hanya-permutasi tidak lengkap secara simetris.

Penulis memperkenalkan pencocokan Hungaria ter-marginalisasi tanda untuk mengatasi batas akurasi struktural dalam pencocokan korelasi bertanda mentah.
Mengkomposisikan gauge lokal $B_d$ dari checkpoint yang disimpan memulihkan 91,1% koordinat lintas-jalankan pada 1500 langkah, dibandingkan dengan 60,3% untuk pencocokan titik akhir.
Di bawah gauge $B_d$, rekonstruksi SAE TinyLlama mencapai NMSE 0,004 versus 1,08 di bawah $S_d$, dan steering sentimen Qwen mempertahankan 95,8% efeknya versus 17,2%.
Transportasi bertanda dari keadaan AdamW mempertahankan lintasan pelatihan yang dilanjutkan, sedangkan keadaan hanya-permutasi mengikuti lintasan yang berbeda.

Para penulis berargumen bahwa transportasi pelestari koordinat penting untuk alat-alat seperti SAE dan vektor steering yang rusak di bawah keselarasan hanya-permutasi, dan klaim interpretabilitas hanya dapat direproduksi relatif terhadap gauge eksplisit.