Benchmark unificado para la detección de alucinaciones a nivel de span en código, salida de herramientas y documentos

Los autores presentan un benchmark unificado para la detección de alucinaciones a nivel de span que se extiende más allá de la evidencia de documentos en lenguaje natural para incluir entradas estructuradas como código fuente, salida de herramientas de desarrollador, documentos markdown, tablas y metadatos del repositorio. El benchmark se construye inyectando alucinaciones localizadas con etiquetas de caracteres exactos en respuestas correctas fundamentadas y validando la división de pruebas de código mediante revisión basada en evidencia.

El detector Qwen3.5-2B ajustado alcanza un span-F1 de 0.689 en el conjunto de prueba unificado.
En la fuente del agente de código, el modelo alcanza un span-F1 de 0.60, superando sustancialmente a LettuceDetect-large (0.17) y a los jueces LLM zero-shot (como máximo 0.22).
El mismo modelo sigue siendo competitivo en benchmarks establecidos de lenguaje natural, obteniendo 81.8 RAGTruth example-F1 y 0.724 English PsiloQA IoU.

Este trabajo aborda la creciente necesidad de detección de alucinaciones en sistemas de generación fundamentada que dependen cada vez más de entradas estructuradas en lugar de solo lenguaje natural.