El ajuste fino de modelos de lenguaje con código inseguro provoca una desalineación emergente. Una dirección de activación compartida entre cuatro familias de modelos logra una separación del 99,6% entre las activaciones alineadas y las desalineadas, y su resta reduce el derrame de código en 21-51 puntos. La transferencia entre arquitecturas muestra supresión conductual pero carece de especificidad; las direcciones dentro del modelo son causalmente accionables, mientras que las direcciones entre modelos solo son causalmente reales.