코드, 도구 출력, 문서를 아우르는 span 수준 환각 감지를 위한 통합 벤치마크

저자들은 자연어 문서 증거를 넘어 소스 코드, 개발자 도구 출력, 마크다운 문서, 표, 저장소 메타데이터와 같은 구조화된 입력을 포함하는 span 수준 환각 감지를 위한 통합 벤치마크를 제시합니다. 이 벤치마크는 근거 있는 정답에 정확한 문자 레이블이 붙은 국소적 환각을 주입하고 증거 기반 검토를 통해 코드 테스트 분할을 검증함으로써 구축됩니다.

파인튜닝된 Qwen3.5-2B 검출기는 통합 테스트 세트에서 0.689 span-F1을 달성합니다.
코드 에이전트 소스에서 모델은 0.60 span-F1에 도달하여 LettuceDetect-large (0.17) 및 제로샷 LLM 판정자 (최대 0.22) 를 크게 능가합니다.
동일한 모델은 확립된 자연어 벤치마크에서도 경쟁력을 유지하며, 81.8 RAGTruth 예시-F1 및 0.724 영어 PsiloQA IoU를 기록합니다.

이 작업은 자연어뿐만 아니라 구조화된 입력을 점점 더 의존하는 근거 기반 생성 시스템에서 환각 감지에 대한 증가하는 필요성에 대응합니다.