Direcciones de activación causal para mitigar la desalineación emergente en modelos de lenguaje

El ajuste fino de modelos de lenguaje con código inseguro provoca una desalineación emergente. Una dirección de activación compartida entre cuatro familias de modelos logra una separación del 99,6% entre las activaciones alineadas y las desalineadas, y su resta reduce el derrame de código en 21-51 puntos. La transferencia entre arquitecturas muestra supresión conductual pero carece de especificidad; las direcciones dentro del modelo son causalmente accionables, mientras que las direcciones entre modelos solo son causalmente reales.

Benchmark	Modelo	Puntuación
SWE-bench Verified	Gemma-2-2B	99.6%
SWE-bench Verified	Llama-3.2-1B	99.6%
SWE-bench Verified	Minstral-3-3B	99.6%
SWE-bench Verified	Qwen2.5-1.5B	99.6%

Benchmarks