Os autores apresentam um benchmark unificado para detecção de alucinação em nível de span que se estende além da evidência de documentos em linguagem natural para incluir entradas estruturadas como código-fonte, saída de ferramentas de desenvolvedor, documentos markdown, tabelas e metadados do repositório. O benchmark é construído injetando alucinações localizadas com rótulos de caracteres exatos em respostas corretas fundamentadas e validando a divisão de teste de código por meio de revisão baseada em evidências.
- O detector Qwen3.5-2B ajustado alcança 0,689 span-F1 no conjunto de teste unificado.
- Na fonte do agente de código, o modelo atinge 0,60 span-F1, superando substancialmente o LettuceDetect-large (0,17) e os juízes LLM zero-shot (no máximo 0,22).
- O mesmo modelo permanece competitivo em benchmarks estabelecidos de linguagem natural, marcando 81,8 RAGTruth example-F1 e 0,724 English PsiloQA IoU.
Este trabalho aborda a necessidade crescente de detecção de alucinação em sistemas de geração fundamentada que dependem cada vez mais de entradas estruturadas em vez de apenas linguagem natural.