コード、ツール出力、文書にわたるspanレベルの幻覚検出のための統一ベンチマーク

著者らは、自然言語の文書証拠を超えて、ソースコード、開発者ツールの出力、マークダウン文書、テーブル、リポジトリメタデータなどの構造化入力を包含するspanレベルの幻覚検出のための統一ベンチマークを提案する。このベンチマークは、根拠のある正解に正確な文字ラベル付きの局所化された幻覚を注入し、証拠に基づくレビューを通じてコードテスト分割を検証することによって構築される。

ファインチューニングされたQwen3.5-2B検出器は、統一テストセットで0.689のspan-F1を達成する。
コードエージェントソースにおいて、モデルは0.60のspan-F1に達し、LettuceDetect-large (0.17) やゼロショットLLM判定器 (最大0.22) を大幅に上回る。
同じモデルは確立された自然言語ベンチマークでも競争力を持ち、81.8のRAGTruth例-F1と0.724のEnglish PsiloQA IoUを記録する。

この研究は、自然言語だけでなく構造化入力をますます依存する根拠のある生成システムにおける幻覚検出の増大するニーズに対応する。