Un benchmark pilote sur la profondeur des preuves pour les appels LLM soutient que la calibration doit s'étendre au-delà de l'exactitude factuelle pour inclure la contamination épistémique et les fuites de cadrage. L'étude définit 'k*' comme le point de saturation des preuves où la fiabilité est maximisée, le distinguant des métriques top-k standard ou de densité d'état.

  • La calibration uniquement basée sur l'exactitude peut être aveugle ; dans un balayage doublement instrumenté, l'exactitude factuelle est restée plate à 1.000 pour chaque k ≥ 1 tandis que les signaux de contamination ont atteint 0.05–0.08.
  • Le k* optimal en termes de fiabilité varie selon cinq types de tâches : rappel factuel, multi-sauts, suivi d'état, résolution de conflits et respect des contraintes.
  • Les valeurs par défaut fixes comme top-3, top-5 ou le remplissage de la fenêtre de contexte sont découragées au profit de la mesure du k* par modèle, type de tâche, format de contexte et axe de fiabilité.

Cette approche aide les systèmes RAG, les agents à mémoire longue et les routeurs de modèles à traiter la profondeur des preuves comme un paramètre de déploiement mesuré plutôt qu'une devinette, améliorant l'auditabilité et le contrôle des coûts.