LLM 호출에 대한 증거 깊이의 파일럿 벤치마크는 교정이 사실적 정확성뿐만 아니라 인식론적 오염과 프레임 리크를 포함해야 한다고 주장한다. 이 연구는 신뢰성이 최대화되는 증거 포화 지점을 'k*'로 정의하며, 표준 검색기 top-k 또는 상태 밀도 지표와 구분한다.

  • 정확성-only 교정은 맹점이 될 수 있음; 이중 계측 스윕에서 사실적 정확성은 모든 k ≥ 1에 대해 1.000으로 유지된 반면 오염 신호는 0.05–0.08에 도달함.
  • 신뢰성 최적의 k*는 다섯 가지 작업 유형 간에 다양함: 사실 회상, 멀티홉, 상태 추적, 충돌 해결, 제약 따름.
  • top-3, top-5 또는 컨텍스트 창을 채우는 것과 같은 고정 기본값은 권장되지 않으며, 모델, 작업 유형, 컨텍스트 형식 및 신뢰성 축별로 k*를 측정하는 것이 선호됨.

이 접근 방식은 RAG 시스템, 장기 메모리 에이전트 및 모델 라우터가 증거 깊이를 추측이 아닌 측정된 배포 매개변수로 처리하도록 도와 감사 가능성과 비용 관리를 개선한다.