Logit-Contribution Scoring 识别大语言模型中的非字面检索头

研究人员引入了 Logit-Contribution Scoring (LOCOS)，这是一种写入感知检测器，可识别在长上下文大型语言模型中执行非字面合成的注意力头。与依赖字面令牌复制的现有方法不同，LOCOS 通过将输出值电路投影到答案令牌的 unembedding 方向上来对头部进行评分。

LOCOS 通过针对负责合成答案的特定头，而不是仅仅读取上下文，为解释长上下文模型行为提供了更精确的机制。