Le diagnostic answer-in-context et le packing submodulaire améliorent le RAG multi-sauts sous contrainte budgétaire

Les chercheurs introduisent « answer-in-context », un diagnostic mesurant si les réponses de référence survivent en tant que spans continus dans les contextes de lecteur packés, arguant qu'il est supérieur au rappel de documents pour la génération augmentée par recherche sous contrainte budgétaire. Ils proposent également de formuler la construction du contexte-lecteur comme une maximisation sous-modulaire monotone sous contrainte budgétaire pour optimiser conjointement la pertinence, la couverture, la représentativité et la diversité.

Answer-in-context prédit mieux le F1 des réponses que le rappel (r=0.39-0.55 vs. ~0.31) et sépare la qualité des réponses par un facteur cinq sur HotpotQA.
Le packer submodulaire bat MMR et le packing naïf jusqu'à +5.1 de F1 sur HotpotQA avec un budget de 160 tokens et un lecteur de 3B.
Les gains nécessitent une structure multi-sauts, une récupération efficace, des budgets liés et des lecteurs où la densité des preuves est le goulot d'étranglement.
L'avantage sur les heuristiques est absorbé par les modèles 7B et inversé par les modèles 14B, comme l'explique le diagnostic.

L'étude démontre que l'optimisation de la survie des réponses plutôt que du rappel améliore les performances dans des scénarios multi-sauts spécifiques avec des budgets de contexte limités.