저자들은 자연어 문서 증거를 넘어 소스 코드, 개발자 도구 출력, 마크다운 문서, 표, 저장소 메타데이터와 같은 구조화된 입력을 포함하는 span 수준 환각 감지를 위한 통합 벤치마크를 제시합니다. 이 벤치마크는 근거 있는 정답에 정확한 문자 레이블이 붙은 국소적 환각을 주입하고 증거 기반 검토를 통해 코드 테스트 분할을 검증함으로써 구축됩니다.

  • 파인튜닝된 Qwen3.5-2B 검출기는 통합 테스트 세트에서 0.689 span-F1을 달성합니다.
  • 코드 에이전트 소스에서 모델은 0.60 span-F1에 도달하여 LettuceDetect-large (0.17) 및 제로샷 LLM 판정자 (최대 0.22) 를 크게 능가합니다.
  • 동일한 모델은 확립된 자연어 벤치마크에서도 경쟁력을 유지하며, 81.8 RAGTruth 예시-F1 및 0.724 영어 PsiloQA IoU를 기록합니다.

이 작업은 자연어뿐만 아니라 구조화된 입력을 점점 더 의존하는 근거 기반 생성 시스템에서 환각 감지에 대한 증가하는 필요성에 대응합니다.