文章表明,LLM工作流中的坐标索引对象需要修复模型残差流的规范,这依赖于架构。LayerNorm模型具有排列规范($S_d$),而RMSNorm模型具有符号排列规范($B_d$),使得仅基于排列的对齐在对称性上是不完整的。
- 作者引入了符号边缘化的匈牙利匹配,以解决原始符号相关匹配中的结构精度上限问题。
- 组合保存的检查点局部 $B_d$ 规范可在1500步时恢复91.1%的跨运行坐标,而端点对齐仅为60.3%。
- 在 $B_d$ 规范下,TinyLlama SAE重建达到0.004的NMSE,而在 $S_d$ 下为1.08;Qwen情感引导保留了95.8%的效果,而之前为17.2%。
- AdamW状态的符号传输保留了恢复的训练轨迹,而仅基于排列的状态则遵循不同的轨迹。
作者认为,坐标保持传输对于SAE和引导向量等工具至关重要,这些工具在仅基于排列的对齐下会失效,且可解释性声明仅在相对于显式规范时才可复现。