Logit-Contribution Scoring identifica cabeças de recuperação não literais em LLMs

Pesquisadores introduzem o Logit-Contribution Scoring (LOCOS), um detector consciente da escrita que identifica cabeças de atenção realizando síntese não literal em modelos de linguagem grandes com contexto longo. Diferente dos métodos existentes que dependem da cópia literal de tokens, o LOCOS pontua as cabeças projetando seu circuito de valores de saída na direção de unembedding do token de resposta.

Testado nas famílias de modelos Qwen3, Gemma-3 e OLMo-3.1 no benchmark NoLiMa.
No Qwen3-8B, a ablação das 50 principais cabeças LOCOS reduziu o ROUGE-L de 0.401 para 0.000, enquanto as linhas de base mantiveram 0.292.
A ablação também reduziu as pontuações do MuSiQue de 0.55 para 0.08 e do BABI-Long de 0.62 para 0.20.
A recuperação paramétrica e o raciocínio aritmético permaneceram nos níveis de base sob a mesma ablação, confirmando a especificidade da recuperação.

O LOCOS fornece um mecanismo mais preciso para interpretar o comportamento de modelos com contexto longo, direcionando-se às cabeças específicas responsáveis por sintetizar respostas em vez de meramente ler o contexto.