Logit-Contribution ScoringがLLMにおける非直説的検索ヘッドを特定

研究者らは、ロングコンテキスト大規模言語モデルにおいて非直説的な合成を行うアテンションヘッドを特定する、書き込み aware な検出器である Logit-Contribution Scoring (LOCOS) を導入した。既存の手法がリテラルなトークンコピーに依存するのに対し、LOCOSは出力値回路を回答トークンのアンエンコーディング方向に射影することでヘッドをスコアリングする。

NoLiMaベンチマーク上でQwen3、Gemma-3、OLMo-3.1モデルファミリーでテストされた。
Qwen3-8Bにおいて、上位50個のLOCOSヘッドをアブレーションすると、ROUGE-Lは0.401から0.000に低下したのに対し、ベースラインは0.292を維持した。
アブレーションにより、MuSiQueスコアも0.55から0.08へ、BABi-Longも0.62から0.20へ低下した。
同じアブレーション条件下でも、パラメトリックリコールと算術推論はベースラインレベルを維持し、検索の特定性を確認した。

LOCOSは、単にコンテキストを読むだけでなく、回答の合成に関与する特定のヘッドを対象とすることで、ロングコンテキストモデルの挙動を解釈するためのより精密なメカニズムを提供する。