Оценка Logit-Contribution Scoring выявляет нелитеральные головы извлечения в LLM

Исследователи представляют Logit-Contribution Scoring (LOCOS), детектор, учитывающий запись, который выявляет головы внимания, выполняющие нелитеральный синтез в больших языковых моделях с длинным контекстом. В отличие от существующих методов, полагающихся на буквальное копирование токенов, LOCOS оценивает головы, проецируя их выходную цепь значений на направление unembedding целевого токена ответа.

Протестировано в семействах моделей Qwen3, Gemma-3 и OLMo-3.1 на бенчмарке NoLiMa.
На Qwen3-8B абляция топ-50 голов LOCOS снизила ROUGE-L с 0.401 до 0.000, тогда как базовые методы сохранили значение 0.292.
Абляция также снизила баллы MuSiQue с 0.55 до 0.08 и BABI-Long с 0.62 до 0.20.
Параметрическое извлечение знаний и арифметическое рассуждение остались на базовом уровне при той же абляции, что подтверждает специфичность извлечения.

LOCOS обеспечивает более точный механизм интерпретации поведения моделей с длинным контекстом, нацеливаясь на конкретные головы, ответственные за синтез ответов, а не просто за чтение контекста.