Logit-Contribution Scoring이 LLM의 비문맥적 검색 헤드를 식별

연구자들은 장문 컨텍스트 대규모 언어 모델에서 비문맥적 합성을 수행하는 어텐션 헤드를 식별하는 쓰기 인식 감지기인 Logit-Contribution Scoring (LOCOS)을 소개했습니다. 기존 방법들이 문맥 그대로의 토큰 복사에 의존하는 것과 달리, LOCOS은 출력값 회로를 답변 토큰의 비임베딩 방향으로 투영하여 헤드를 점수화합니다.

NoLiMa 벤치마크에서 Qwen3, Gemma-3, OLMo-3.1 모델 계열에 대해 테스트되었습니다.
Qwen3-8B에서 상위 50개 LOCOS 헤드를 아블레이션하면 ROUGE-L이 0.401에서 0.000으로 감소하는 반면, 베이스라인은 0.292를 유지했습니다.
아블레이션으로 인해 MuSiQue 점수도 0.55에서 0.08로, BABi-Long도 0.62에서 0.20으로 감소했습니다.
동일한 아블레이션 조건에서도 매개변수적 회상과 산술 추론은 베이스라인 수준을 유지하여 검색의 특이성을 확인했습니다.

LOCOS는 단순히 컨텍스트를 읽는 것이 아니라 답변 합성에 관여하는 특정 헤드를 대상으로 함으로써 장문 컨텍스트 모델의 동작을 해석하기 위한 더 정밀한 메커니즘을 제공합니다.