Una prueba piloto sobre la profundidad de evidencia para llamadas LLM argumenta que la calibración debe extenderse más allá de la corrección factual para incluir contaminación epistémica y filtración de encuadre. El estudio define 'k*' como el punto de saturación de evidencia donde la fiabilidad se maximiza, distinguiéndolo de las métricas estándar top-k del recuperador o de densidad de estado.

  • La calibración solo por corrección puede ser ciega; en un barrido con doble instrumentación, la corrección factual permaneció plana en 1.000 para cada k ≥ 1 mientras que las señales de contaminación alcanzaron 0.05–0.08.
  • El k* óptimo para la fiabilidad varía entre cinco tipos de tareas: recuperación factual, multi-hop, seguimiento de estado, resolución de conflictos y cumplimiento de restricciones.
  • Se desaconsejan los valores fijos por defecto como top-3, top-5 o llenar la ventana de contexto en favor de medir k* por modelo, tipo de tarea, formato de contexto y eje de fiabilidad.

Este enfoque ayuda a los sistemas RAG, agentes de memoria larga y enrutadores de modelos a tratar la profundidad de evidencia como un parámetro de despliegue medido en lugar de una suposición, mejorando la auditabilidad y el control de costos.