مقياس موحد لكشف الهلوسة على مستوى النطاق عبر الكود وإخراج الأدوات والمستندات

يقدم المؤلفون مقياساً موحداً لكشف الهلوسة على مستوى النطاق يمتد beyond أدلة المستندات ذات اللغة الطبيعية ليشمل مدخلات هيكلية مثل مصدر الكود، وإخراج أدوات المطور، ومستندات الماركداون، والجداول، وبيانات المستودع. تم بناء المقياس عن طريق حقن هلوسات محلية مع تسميات أحرف دقيقة في إجابات صحيحة مرساة والتحقق من صحة تقسيم اختبار الكود من خلال مراجعة قائمة على الأدلة.

حقق كاشف Qwen3.5-2D المُدقق قيمة span-F1 تبلغ 0.689 على مجموعة الاختبار الموحدة.
على مصدر وكيل الكود، وصل النموذج إلى قيمة span-F1 تبلغ 0.60، متفوقاً بشكل كبير على LettuceDetect-large (0.17) وقضاة LLM ذو الصفر خطوات (بحد أقصى 0.22).
يظل نفس النموذج منافساً في مقاييس اللغة الطبيعية الراسخة، مسجلاً 81.8 RAGTruth example-F1 و 0.724 English PsiloQA IoU.

يعالج هذا العمل الحاجة المتزايدة لكشف الهلوسة في أنظمة التوليد المرساة التي تعتمد بشكل متزايد على المدخلات الهيكلية بدلاً من اللغة الطبيعية فقط.