符号排列规范固定了RMSNorm Transformer的坐标传输

文章表明，LLM工作流中的坐标索引对象需要修复模型残差流的规范，这依赖于架构。LayerNorm模型具有排列规范（$S_d$），而RMSNorm模型具有符号排列规范（$B_d$），使得仅基于排列的对齐在对称性上是不完整的。

作者引入了符号边缘化的匈牙利匹配，以解决原始符号相关匹配中的结构精度上限问题。
组合保存的检查点局部 $B_d$ 规范可在1500步时恢复91.1%的跨运行坐标，而端点对齐仅为60.3%。
在 $B_d$ 规范下，TinyLlama SAE重建达到0.004的NMSE，而在 $S_d$ 下为1.08；Qwen情感引导保留了95.8%的效果，而之前为17.2%。
AdamW状态的符号传输保留了恢复的训练轨迹，而仅基于排列的状态则遵循不同的轨迹。

作者认为，坐标保持传输对于SAE和引导向量等工具至关重要，这些工具在仅基于排列的对齐下会失效，且可解释性声明仅在相对于显式规范时才可复现。