LLM呼び出しにおける証拠深度のパイロットベンチマークは、補正が事実の正確性だけでなく認識論的汚染やフレーミングリークを含めるべきだと主張している。本研究では、信頼性が最大化される証拠飽和点を「k*」と定義し、標準的な検索器のtop-kや状態密度指標とは区別している。
- 正確性のみの補正は盲点になり得る;二重計測スイープでは、事実の正確性はすべての k ≥ 1 で 1.000 のまま推移した一方、汚染信号は 0.05–0.08 に達した。
- 信頼性最適の k* は5つのタスクタイプ間で異なる:事実想起、マルチホップ、状態追跡、競合解決、制約従順。
- top-3、top-5、またはコンテキストウィンドウを埋めるような固定デフォルトは推奨されず、モデル、タスクタイプ、コンテキスト形式、信頼性軸ごとに k* を測定することが好まれる。
このアプローチにより、RAGシステム、長期記憶エージェント、モデルルーターは、証拠深度を推測ではなく測定されたデプロイメントパラメータとして扱い、監査可能性とコスト管理を改善できる。