Le Logit-Contribution Scoring identifie les têtes de récupération non-littérales dans les LLM

Les chercheurs présentent le Logit-Contribution Scoring (LOCOS), un détecteur conscient de l'écriture qui identifie les têtes d'attention effectuant une synthèse non-littérale dans les grands modèles de langage à contexte long. Contrairement aux méthodes existantes qui reposent sur la copie littérale des tokens, LOCOS score les têtes en projetant leur circuit de valeur de sortie sur la direction d'un-décodage du token de réponse.

Testé sur les familles de modèles Qwen3, Gemma-3 et OLMo-3.1 sur le benchmark NoLiMa.
Sur Qwen3-8B, l'ablation des 50 premières têtes LOCOS a fait chuter le ROUGE-L de 0.401 à 0.000, tandis que les lignes de base ont maintenu 0.292.
L'ablation a également fait chuter les scores MuSiQue de 0.55 à 0.08 et BABi-Long de 0.62 à 0.20.
Le rappel paramétrique et le raisonnement arithmétique sont restés au niveau de la ligne de base lors de la même ablation, confirmant la spécificité de la récupération.

LOCOS fournit un mécanisme plus précis pour interpréter le comportement des modèles à contexte long en ciblant les têtes spécifiques responsables de la synthèse des réponses plutôt que de simplement lire le contexte.