Benchmark unificado para detecção de alucinação em nível de span em código, saída de ferramentas e documentos

Os autores apresentam um benchmark unificado para detecção de alucinação em nível de span que se estende além da evidência de documentos em linguagem natural para incluir entradas estruturadas como código-fonte, saída de ferramentas de desenvolvedor, documentos markdown, tabelas e metadados do repositório. O benchmark é construído injetando alucinações localizadas com rótulos de caracteres exatos em respostas corretas fundamentadas e validando a divisão de teste de código por meio de revisão baseada em evidências.

O detector Qwen3.5-2B ajustado alcança 0,689 span-F1 no conjunto de teste unificado.
Na fonte do agente de código, o modelo atinge 0,60 span-F1, superando substancialmente o LettuceDetect-large (0,17) e os juízes LLM zero-shot (no máximo 0,22).
O mesmo modelo permanece competitivo em benchmarks estabelecidos de linguagem natural, marcando 81,8 RAGTruth example-F1 e 0,724 English PsiloQA IoU.

Este trabalho aborda a necessidade crescente de detecção de alucinação em sistemas de geração fundamentada que dependem cada vez mais de entradas estruturadas em vez de apenas linguagem natural.