Las correcciones de calibre con permutación firmada estabilizan el transporte de coordenadas en Transformers RMSNorm

El artículo demuestra que los objetos indexados por coordenada en los flujos de trabajo de LLM requieren fijar el calibre del flujo residual del modelo, lo cual depende de la arquitectura. Mientras que los modelos LayerNorm tienen un calibre de permutación ($S_d$), los modelos RMSNorm poseen un calibre de permutación firmada ($B_d$), haciendo que la simetría de alineación solo con permutaciones sea incompleta.

Los autores introducen la coincidencia húngara marginalizada por signo para abordar los techos de precisión estructural en la coincidencia de correlación firmada cruda.

La composición de calibres locales $B_d$ de puntos de control guardados recupera el 91,1 % de las coordenadas entre ejecuciones a los 1500 pasos, en comparación con el 60,3 % para la coincidencia de extremos.

Bajo el calibre $B_d$, la reconstrucción SAE de TinyLlama logra un NMSE de 0,004 frente a 1,08 bajo $S_d$, y el direccionamiento de sentimiento de Qwen preserva el 95,8 % de su efecto frente al 17,2 %.

El transporte firmado del estado de AdamW preserva la trayectoria de entrenamiento reanudada, mientras que el estado solo con permutación sigue una diferente.

Los autores argumentan que el transporte que preserva las coordenadas es esencial para herramientas como SAE y vectores de direccionamiento que fallan bajo alineación solo con permutaciones, y que las afirmaciones de interpretabilidad solo son reproducibles en relación con un calibre explícito.