Logit-Contribution Scoring LLMs में गैर-साहित्यिक पुनर्प्राप्ति हेड्स की पहचान करता है

शोधकर्ताओं ने Logit-Contribution Scoring (LOCOS) पेश किया, जो एक लिखने-जागरूक डिटेक्टर है जो लंबे-संदर्भ वाले बड़े भाषा मॉडलों में गैर-साहित्यिक संश्लेषण करने वाले ध्यान हेड्स की पहचान करता है। मौजूदा तरीकों के विपरीत जो साहित्यिक टोकन कॉपी पर निर्भर करते हैं, LOCOS अपने आउटपुट-वैल्यू सर्किट को उत्तर-टोकन अनएम्बेडिंग दिशा पर प्रोजेक्ट करके हेड्स को स्कोर करता है।

NoLiMa बेंचमार्क पर Qwen3, Gemma-3, और OLMo-3.1 मॉडल परिवारों पर परीक्षण किया गया।
Qwen3-8B पर, शीर्ष 50 LOCOS हेड्स का एब्लेशन ROUGE-L को 0.401 से घटाकर 0.000 कर दिया, जबकि बेसलाइन ने 0.292 बनाए रखे।
एब्लेशन ने MuSiQue स्कोर को 0.55 से घटाकर 0.08 और BABI-Long को 0.62 से घटाकर 0.20 कर दिया।
उसी एब्लेशन के तहत पैरामीट्रिक रिकॉल और अंकगणितीय तर्क बेसलाइन स्तर पर बने रहे, जिससे पुनर्प्राप्ति विशिष्टता की पुष्टि हुई।

LOCOS लंबे-संदर्भ मॉडल व्यवहार को व्याख्यायित करने के लिए एक अधिक सटीक तंत्र प्रदान करता है जो संदर्भ को केवल पढ़ने के बजाय उत्तरों को संश्लेषित करने के लिए जिम्मेदार विशिष्ट हेड्स पर केंद्रित है।