Saturación de evidencia k*: la profundidad de recuperación debe calibrarse, no adivinarse

Una prueba piloto sobre la profundidad de evidencia para llamadas LLM argumenta que la calibración debe extenderse más allá de la corrección factual para incluir contaminación epistémica y filtración de encuadre. El estudio define 'k*' como el punto de saturación de evidencia donde la fiabilidad se maximiza, distinguiéndolo de las métricas estándar top-k del recuperador o de densidad de estado.

La calibración solo por corrección puede ser ciega; en un barrido con doble instrumentación, la corrección factual permaneció plana en 1.000 para cada k ≥ 1 mientras que las señales de contaminación alcanzaron 0.05–0.08.
El k* óptimo para la fiabilidad varía entre cinco tipos de tareas: recuperación factual, multi-hop, seguimiento de estado, resolución de conflictos y cumplimiento de restricciones.
Se desaconsejan los valores fijos por defecto como top-3, top-5 o llenar la ventana de contexto en favor de medir k* por modelo, tipo de tarea, formato de contexto y eje de fiabilidad.

Este enfoque ayuda a los sistemas RAG, agentes de memoria larga y enrutadores de modelos a tratar la profundidad de evidencia como un parámetro de despliegue medido en lugar de una suposición, mejorando la auditabilidad y el control de costos.