Divulgadores del primer token en Transformers: Orígenes mecanicistas de la identidad lingüística

LIHA identifica un pequeño conjunto de cabezas divulgadoras del primer token en GPT-2 que persistentemente se atenúan al token inicial del prompt, provocando cambios de idioma. El ajuste por instrucciones reorganiza estos circuitos, concentrando la identidad lingüística en las capas iniciales, como se muestra en una comparación controlada entre los modelos Qwen2.5-1.5B-Base y Qwen2-1.5B-Instruct. La divulgación del primer token es específica del guion, con idiomas no latinos procesados en la capa 0, coincidiendo con el patrón del modelo ajustado por instrucciones.