В статье показано, что объекты, индексированные по координатам, в рабочих процессах LLM требуют фиксации калибровки остаточного потока модели, которая зависит от архитектуры. В то время как модели с LayerNorm обладают перестановочной калибровкой ($S_d$), модели с RMSNorm имеют знакоперестановочную калибровку ($B_d$), что делает выравнивание только на основе перестановок симметрийно неполным.

  • Авторы предлагают венгерское сопоставление с маргинализацией по знаку для преодоления структурных пределов точности при прямом сопоставлении по знакокорреляции.
  • Компонирование локальных калибровок $B_d$ из сохранённых контрольных точек позволяет восстановить 91,1% координат между запусками на шаге 1500, по сравнению с 60,3% для сопоставления конечных точек.
  • При калибровке $B_d$ реконструкция TinyLlama SAE достигает NMSE 0,004 против 1,08 при $S_d$, а управление тональностью Qwen сохраняет 95,8% своего эффекта против 17,2%.
  • Знаковый перенос состояния AdamW сохраняет траекторию возобновлённого обучения, тогда как состояние только с перестановками следует иной траектории.

Авторы утверждают, что перенос с сохранением координат необходим для таких инструментов, как SAE и векторы управления, которые разрушаются при выравнивании только по перестановкам, и что утверждения об интерпретируемости воспроизводимы лишь относительно явной калибровки.