Единый бенчмарк для обнаружения галлюцинаций на уровне спанов в коде, выводах инструментов и документах

Авторы представляют единый бенчмарк для обнаружения галлюцинаций на уровне спанов, который выходит за рамки доказательств из документов на естественном языке и включает структурированные входные данные, такие как исходный код, вывод инструментов разработчика, markdown-документы, таблицы и метаданные репозитория. Бенчмарк создан путем внедрения локализованных галлюцинаций с точными символьными метками в обоснованные правильные ответы, а проверка разделения кода выполнена через обзор на основе доказательств.

Дообученный детектор Qwen3.5-2B достигает span-F1 0.689 на едином тестовом наборе.
На исходном коде code-agent модель достигает span-F1 0.60, значительно превосходя LettuceDetect-large (0.17) и zero-shot LLM judges (не более 0.22).
Та же модель остается конкурентоспособной на устоявшихся бенчмарках для естественного языка, набирая 81.8 RAGTruth example-F1 и 0.724 English PsiloQA IoU.

Эта работа решает растущую потребность в обнаружении галлюцинаций в системах генерации с обоснованием, которые все больше полагаются на структурированные входные данные, а не только на естественный язык.