Para peneliti memperkenalkan Logit-Contribution Scoring (LOCOS), sebuah detektor yang sadar penulisan yang mengidentifikasi kepala perhatian yang melakukan sintesis non-literal pada model bahasa besar konteks panjang. Berbeda dengan metode yang ada yang mengandalkan salinan token literal, LOCOS memberi skor kepala dengan memproyeksikan sirkuit nilai outputnya ke arah unembedding token jawaban.

  • Diuji pada keluarga model Qwen3, Gemma-3, dan OLMo-3.1 pada benchmark NoLiMa.
  • Pada Qwen3-8B, ablasi 50 kepala LOCOS teratas mengurangi ROUGE-L dari 0.401 menjadi 0.000, sedangkan baseline mempertahankan 0.292.
  • Ablasi juga menurunkan skor MuSiQue dari 0.55 menjadi 0.08 dan BABi-Long dari 0.62 menjadi 0.20.
  • Recall parametrik dan penalaran aritmatika tetap pada level baseline di bawah ablasi yang sama, mengonfirmasi spesifisitas pencarian.

LOCOS menyediakan mekanisme yang lebih presisi untuk menginterpretasikan perilaku model konteks panjang dengan menargetkan kepala spesifik yang bertanggung jawab atas sintesis jawaban daripada sekadar membaca konteks.