Este artículo presenta un marco de trabajo de RAG adaptativo que asigna presupuestos de recuperación al calibrar las señales de incertidumbre de log-probabilidad de secuencia y logit de prefijo en probabilidades de corrección. El sistema decide si responder con conocimiento interno, recuperar un contexto compacto (k=1), recuperar un contexto completo (k=5) o abstenerse basándose en estas probabilidades calibradas.

  • La calibración diagnóstica fuera de pliegue mejora significativamente la calidad de la probabilidad, reduciendo el ECE de 0.275 a 0.062 en TriviaQA y de 0.643 a 0.009 en Natural Questions.
  • La recuperación graduada mejora las fronteras de contexto completo y presupuesto de pasaje tanto para la señal propuesta como para la entropía/margen de prefijo estilo TARG.
  • Los experimentos con umbrales en datos no vistos identifican puntos operativos desplegables para diferentes tareas de QA, incluyendo TriviaQA, Natural Questions y MS MARCO.
  • Un modelo de costo medido muestra que el enrutamiento no es universalmente más rápido, aumentando la latencia aproximadamente un 27% en Qwen3-8B mientras ahorra alrededor del 8% en Qwen3-32B en las fronteras de precisión coincidente.

Los autores consideran esto importante porque la confianza calibrada sirve como una interfaz reutilizable para asignar el presupuesto de recuperación bajo restricciones específicas de tarea y sistema, ofreciendo una visión matizada de la eficiencia del RAG adaptativo.