本記事は、LLMワークフローにおける座標インデックス付きオブジェクトには、アーキテクチャに依存するモデルの残差ストリームのゲージを固定する必要があることを実証しています。LayerNormモデルには順列ゲージ($S_d$)がありますが、RMSNormモデルは符号付き順列ゲージ($B_d$)を持ち、順列のみのアライメントでは対称性が不十分です。
- 著者は、生の符号相関マッチングにおける構造的精度の天井を克服するため、符号周辺化ハンガリアンマッチングを導入しました。
- 保存されたチェックポイントの局所$B_d$ゲージを合成することで、1500ステップでエンドポイントマッチングの60.3%に対して91.1%のクロスラン座標が回復します。
- $B_d$ゲージの下では、TinyLlama SAE再構築は$S_d$下の1.08に対してNMSE 0.004を達成し、Qwen感情ステアリングはその効果を17.2%に対して95.8%保持します。
- AdamW状態の符号付き輸送は再開されたトレーニング軌道を保持しますが、順列のみの状態は異なる軌道に従います。
著者は、座標保存輸送がSAEやステアリングベクトルなどのツールにとって不可欠であり、これらは順列のみのアライメントの下で壊れると主張しています。また、解釈可能性の主張は明示的なゲージに対してのみ再現可能であると述べています。