Divulgadores de primer token en Transformers: Identidad lingüística y robustez

LIHA revela un pequeño conjunto de cabezas divulgadoras de primer token en GPT-2 que persistentemente se atenúan al token inicial del prompt, impulsando cambios de idioma. El ajuste por instrucciones reorganiza estos circuitos, concentrando la identidad del idioma en las capas iniciales, como se observa en Qwen2.5-1.5B-Instruct y confirmado en el manejo de los idiomas chino y ruso en la capa 0.