合成ヘルスケアデータベースのベンチマークは、ロールアップドキュメントやSmall-to-Big検索などのデータ表現の最適化が、クエリ書き換えやrerankingといった標準的なRAGのアップグレードを大幅に上回ることを示している。
- 著者は、架空の患者、医師、請求レコードを対象とした30問の評価セットを作成し、様々なRAG手法をテストした。
- 基本的なベクトル検索は2.856/5の回答スコアだったが、クエリ書き換えとBGE rerankingを追加しても3.056/5にしか向上しなかった。
- Small-to-Big検索(小さなチャンクを検索してから完全なレコードに展開)は、コンテキスト不足なしで正確なマッチングを提供し、スコアを4.044/5に改善した。
- 診察件数や請求合計などの集計データ用の事前計算されたロールアップドキュメントを追加すると、回答スコアが4.622/5、ハード問題のスコアが4.500/5に向上した。
- 最終的なJina rerankerの実行は0.792という最高の検索MRRを達成したが、ロールアップ構成が最も優れた全体的な回答品質を提供した。
この結果は、RAGの品質は多くの場合モデルの問題ではなくデータ表現の問題であることを示唆しており、エンティティレベルの参照や集計計算などのクエリタイプに合わせてドキュメント構造を整備する必要性を強調している。