作者引入了一种统一的跨段级幻觉检测基准,其范围超越了自然语言文档证据,包括结构化输入,如源代码、开发者工具输出、markdown 文档、表格和仓库元数据。该基准通过在基于事实的正确答案中注入带有精确字符标签的局部幻觉来构建,并通过基于证据的审查验证代码测试集。
- 微调后的 Qwen3.5-2B 检测器在统一测试集上达到 0.689 span-F1。
- 在 code-agent 源代码上,模型达到 0.60 span-F1,显著优于 LettuceDetect-large (0.17) 和 zero-shot LLM judges(最高 0.22)。
- 同一模型在既定的自然语言基准上仍具竞争力,获得 81.8 RAGTruth example-F1 和 0.724 English PsiloQA IoU。
这项工作解决了在地面生成系统中检测幻觉日益增长的需求,这些系统越来越多地依赖结构化输入而不仅仅是自然语言。