一项关于 LLM 调用中证据深度的试点基准测试认为,校准必须超越事实正确性,包括认识论污染和框架泄漏。该研究将 'k*' 定义为可靠性最大化的证据饱和点,将其与标准的检索器 top-k 或状态密度指标区分开来。

  • 仅基于正确性的校准可能是盲目的;在双重仪器扫描中,对于每个 k ≥ 1,事实正确性保持在 1.000 不变,而污染信号达到 0.05–0.08。
  • 可靠性最优的 k* 因五种任务类型而异:事实回忆、多跳、状态跟踪、冲突解决和约束遵循。
  • 不鼓励使用 top-3、top-5 或填满上下文窗口等固定默认值,而是建议针对每个模型、任务类型、上下文格式和可靠性轴测量 k*。

这种方法帮助 RAG 系统、长记忆代理和模型路由器将证据深度视为可测量的部署参数而非猜测,从而提高可审计性和成本控制。