Benchmark de RAG sintético mostra que formato do documento traz ganhos maiores que ajustes no modelo

Um benchmark de banco de dados de saúde sintético demonstra que otimizar a representação dos dados, como usar documentos rollup e recuperação Small-to-Big, supera significativamente atualizações padrão de RAG, como reescrita de consulta e reranking.

O autor criou um conjunto de avaliação com 30 perguntas sobre pacientes fictícios, médicos e registros de faturamento para testar várias técnicas de RAG.
A busca vetorial básica obteve uma pontuação de resposta de 2,856/5, enquanto adicionar reescrita de consulta e reranking BGE elevou apenas para 3,056/5.
A recuperação Small-to-Big (buscar pequenos trechos e depois expandir para registros completos) melhorou a pontuação para 4,044/5 ao fornecer correspondência precisa sem fome de contexto.
Adicionar documentos rollup pré-computados para agregações como cargas de consultas e totais de faturamento elevou a pontuação de resposta para 4,622/5 e a pontuação de perguntas difíceis para 4,500/5.
Uma execução final do reranker Jina alcançou o maior MRR de recuperação em 0,792, mas a configuração rollup forneceu a melhor qualidade geral de resposta.

Os resultados sugerem que a qualidade do RAG é frequentemente um problema de representação de dados em vez de um problema de modelo, enfatizando a necessidade de alinhar a estrutura do documento com tipos de consulta como consultas em nível de entidade ou cálculos agregados.