Un benchmark RAG synthétique montre que la forme du document offre des gains supérieurs aux ajustements du modèle

Un benchmark sur une base de données de santé synthétique démontre que l'optimisation de la représentation des données, comme l'utilisation de documents rollup et de la recherche Small-to-Big, surpasse largement les améliorations standard de RAG telles que la réécriture de requête et le reranking.

L'auteur a créé un ensemble d'évaluation de 30 questions basé sur des patients, médecins et factures fictifs pour tester diverses techniques RAG.
La recherche vectorielle de base a obtenu un score de réponse de 2.856/5, tandis que l'ajout de la réécriture de requête et du reranking BGE ne l'a élevé qu'à 3.056/5.
La recherche Small-to-Big (recherche dans de petits chunks puis expansion vers les enregistrements complets) a amélioré le score à 4.044/5 en fournissant une correspondance précise sans famine de contexte.
L'ajout de documents rollup précalculés pour des agrégats tels que les charges de rendez-vous et les totaux de facturation a élevé le score de réponse à 4.622/5 et le score des questions difficiles à 4.500/5.
Une exécution finale du reranker Jina a atteint le MRR de récupération le plus élevé à 0.792, mais la configuration rollup a fourni la meilleure qualité de réponse globale.

Les résultats suggèrent que la qualité RAG est souvent un problème de représentation des données plutôt qu'un problème de modèle, soulignant la nécessité d'aligner la structure du document avec les types de requêtes tels que les recherches au niveau des entités ou les calculs agrégés.