Logit-Contribution Scoring identifica cabezas de recuperación no literales en LLMs

Los investigadores presentan Logit-Contribution Scoring (LOCOS), un detector consciente de la escritura que identifica cabezas de atención que realizan síntesis no literal en modelos de lenguaje grandes con contexto largo. A diferencia de los métodos existentes que dependen de la copia literal de tokens, LOCOS puntúa las cabezas proyectando su circuito de valores de salida sobre la dirección de unembedding del token de respuesta.

Probado en las familias de modelos Qwen3, Gemma-3 y OLMo-3.1 en el benchmark NoLiMa.
En Qwen3-8B, la ablación de las 50 principales cabezas LOCOS redujo ROUGE-L de 0.401 a 0.000, mientras que las líneas base retuvieron 0.292.
La ablación también redujo las puntuaciones de MuSiQue de 0.55 a 0.08 y BABI-Long de 0.62 a 0.20.
La recuperación paramétrica y el razonamiento aritmético se mantuvieron en niveles base bajo la misma ablación, confirmando la especificidad de la recuperación.

LOCOS proporciona un mecanismo más preciso para interpretar el comportamiento de modelos con contexto largo al dirigirse a las cabezas específicas responsables de sintetizar respuestas en lugar de simplemente leer el contexto.