研究人员引入了 Logit-Contribution Scoring (LOCOS),这是一种写入感知检测器,可识别在长上下文大型语言模型中执行非字面合成的注意力头。与依赖字面令牌复制的现有方法不同,LOCOS 通过将输出值电路投影到答案令牌的 unembedding 方向上来对头部进行评分。

  • 在 NoLiMa 基准测试上针对 Qwen3、Gemma-3 和 OLMo-3.1 模型系列进行了测试。
  • 在 Qwen3-8B 上,消融前 50 个 LOCOS 头使 ROUGE-L 从 0.401 降至 0.000,而基线方法保留了 0.292。
  • 消融操作还将 MuSiQue 分数从 0.55 降至 0.08,将 BABI-Long 从 0.62 降至 0.20。
  • 在同一消融下,参数召回率和算术推理保持在基线水平,证实了检索的特异性。

LOCOS 通过针对负责合成答案的特定头,而不是仅仅读取上下文,为解释长上下文模型行为提供了更精确的机制。