कोड, टूल आउटपुट और दस्तावेज़ों पर स्पैन-स्तर के हैल्युसिनेशन डिटेक्शन के लिए एकत्रीत बेंचमार्क

लेखकों ने प्राकृतिक भाषा दस्तावेज़ प्रमाण से परे जाने वाले, स्रोत कोड, डेवलपर-टूल आउटपुट, मार्कडाउन दस्तावेज़, तालिकाओं और रिपॉजिटरी मेटाडेटा जैसे संरचित इनपुट को शामिल करने वाले स्पैन-स्तर के हैल्युसिनेशन डिटेक्शन के लिए एकत्रीत बेंचमार्क पेश किया है। सत्यापित सही उत्तरों में स्थानीयकृत हैल्युसिनेशनों को सटीक वर्ण लेबल के साथ इंजेक्ट करके और प्रमाण-आधारित समीक्षा के माध्यम से कोड टेस्ट स्प्लिट की वैधता जांचकर बेंचमार्क बनाया गया है।

फाइन-ट्यून किए गए Qwen3.5-2B डिटेक्टर ने एकत्रीत टेस्ट सेट पर 0.689 span-F1 हासिल किया।
कोड-एजेंट स्रोत पर, मॉडल 0.60 span-F1 तक पहुंचता है, जो LettuceDetect-large (0.17) और जीरो-शॉट LLM जज्स (अधिकतम 0.22) की तुलना में काफी बेहतर प्रदर्शन करता है।
वही मॉडल स्थापित प्राकृतिक भाषा बेंचमार्क्स पर प्रतिस्पर्धी बना हुआ है, जिसने 81.8 RAGTruth example-F1 और 0.724 English PsiloQA IoU अर्जित किए हैं।

यह कार्य उन सत्यापित जनरेशन सिस्टम में हैल्युसिनेशन डिटेक्शन की बढ़ती आवश्यकता को संबोधित करता है जो केवल प्राकृतिक भाषा के बजाय संरचित इनपुट पर अधिक निर्भर हो रहे हैं।