Benchmark unifié pour la détection d'hallucinations au niveau des spans sur le code, les sorties d'outils et les documents

Les auteurs présentent un benchmark unifié pour la détection d'hallucinations au niveau des spans qui s'étend au-delà des preuves de documents en langage naturel pour inclure des entrées structurées telles que le code source, les sorties d'outils développeur, les documents markdown, les tableaux et les métadonnées de dépôt. Le benchmark est construit en injectant des hallucinations localisées avec des étiquettes de caractères exactes dans des réponses correctes ancrées et en validant la division de test de code par un examen basé sur les preuves.

Le détecteur Qwen3.5-2B finement ajusté atteint un span-F1 de 0,689 sur l'ensemble de test unifié.
Sur la source de l'agent de code, le modèle atteint un span-F1 de 0,60, surpassant largement LettuceDetect-large (0,17) et les juges LLM en zero-shot (au plus 0,22).
Le même modèle reste compétitif sur les benchmarks naturels établis, marquant 81,8 RAGTruth example-F1 et 0,724 IoU PsiloQA anglais.

Ce travail répond au besoin croissant de détection d'hallucinations dans les systèmes de génération ancrée qui s'appuient de plus en plus sur des entrées structurées plutôt que uniquement sur le langage naturel.