Los investigadores presentan "respuesta en contexto", un diagnóstico que mide si las respuestas doradas sobreviven como spans contiguos en contextos de lector empaquetados, argumentando que es superior al recall de documentos para la generación aumentada con recuperación con presupuesto limitado. También proponen plantear la construcción del contexto del lector como una maximización submodular monótona con presupuesto para optimizar conjuntamente relevancia, cobertura, representatividad y diversidad.

  • La respuesta en contexto predice mejor el F1 de respuesta que el recall (r=0.39-0.55 vs. ~0.31) y separa la calidad de la respuesta cinco veces en HotpotQA.
  • El empaquetador submodular supera a MMR y al empaquetado ingenuo hasta +5.1 F1 en HotpotQA con un presupuesto de 160 tokens y un lector de 3B.
  • Las ganancias requieren estructura multi-paso, recuperación efectiva, presupuestos vinculados y lectores donde la densidad de evidencia es el cuello de botella.
  • La ventaja sobre las heurísticas es absorbida por los modelos de 7B y revertida por los de 14B, según explica el diagnóstico.

El estudio demuestra que optimizar para la supervivencia de la respuesta en lugar del recall mejora el rendimiento en escenarios multi-paso específicos con presupuestos de contexto limitados.