Artikel ini mendemonstrasikan bahwa objek yang diindeks oleh koordinat dalam alur kerja LLM memerlukan perbaikan gauge aliran residual model, yang bergantung pada arsitektur. Sementara model LayerNorm memiliki gauge permutasi ($S_d$), model RMSNorm memiliki gauge permutasi bertanda ($B_d$), membuat keselarasan hanya-permutasi tidak lengkap secara simetris.

  • Penulis memperkenalkan pencocokan Hungaria ter-marginalisasi tanda untuk mengatasi batas akurasi struktural dalam pencocokan korelasi bertanda mentah.
  • Mengkomposisikan gauge lokal $B_d$ dari checkpoint yang disimpan memulihkan 91,1% koordinat lintas-jalankan pada 1500 langkah, dibandingkan dengan 60,3% untuk pencocokan titik akhir.
  • Di bawah gauge $B_d$, rekonstruksi SAE TinyLlama mencapai NMSE 0,004 versus 1,08 di bawah $S_d$, dan steering sentimen Qwen mempertahankan 95,8% efeknya versus 17,2%.
  • Transportasi bertanda dari keadaan AdamW mempertahankan lintasan pelatihan yang dilanjutkan, sedangkan keadaan hanya-permutasi mengikuti lintasan yang berbeda.

Para penulis berargumen bahwa transportasi pelestari koordinat penting untuk alat-alat seperti SAE dan vektor steering yang rusak di bawah keselarasan hanya-permutasi, dan klaim interpretabilitas hanya dapat direproduksi relatif terhadap gauge eksplisit.