El benchmark de RAG sintético muestra que la forma del documento produce mayores ganancias que los ajustes del modelo

Un benchmark de base de datos sanitaria sintética demuestra que optimizar la representación de datos, como usar documentos resumidos y recuperación Pequeño-a-Grande, supera significativamente las mejoras estándar de RAG como la reescritura de consultas y el reranking.

El autor construyó un conjunto de evaluación de 30 preguntas sobre pacientes falsos, médicos y registros de facturación para probar varias técnicas de RAG.
La búsqueda vectorial básica logró una puntuación de respuesta de 2.856/5, mientras que añadir reescritura de consultas y reranking con BGE solo la elevó a 3.056/5.
La recuperación Pequeño-a-Grande (buscar fragmentos pequeños y luego expandirlos a registros completos) mejoró la puntuación a 4.044/5 al proporcionar coincidencias precisas sin inanición de contexto.
Añadir documentos resumidos precomputados para agregados como cargas de citas y totales de facturación elevó la puntuación de respuesta a 4.622/5 y la puntuación de preguntas difíciles a 4.500/5.
Una ejecución final del reranker de Jina logró el MRR de recuperación más alto en 0.792, pero la configuración con documentos resumidos proporcionó la mejor calidad general de respuesta.

Los resultados sugieren que la calidad de RAG es a menudo un problema de representación de datos en lugar de un problema del modelo, enfatizando la necesidad de alinear la estructura del documento con los tipos de consulta como búsquedas a nivel de entidad o cálculos agregados.