一项针对合成医疗数据库的基准测试表明,优化数据表示(例如使用汇总文档和小到大的检索)显著优于标准的RAG升级方案,如查询重写和重排序。

  • 作者构建了一个包含30个问题的评估集,涵盖虚构的患者、医生和账单记录,以测试各种RAG技术。
  • 基础向量搜索的答案得分为2.856/5,而加入查询重写和BGE重排序后仅提升至3.056/5。
  • “小到大”检索(先搜索小块内容再扩展至完整记录)通过将答案得分提高至4.044/5,实现了精确匹配且避免了上下文饥饿。
  • 为预约负载和账单总额等聚合数据添加预计算的汇总文档后,答案得分提升至4.622/5,难题得分提升至4.500/5。
  • 最后一轮Jina重排序器运行取得了最高的检索MRR(0.792),但汇总文档配置提供了最佳的整体答案质量。

结果表明,RAG的质量往往是一个数据表示问题,而非模型问题,强调了将文档结构与查询类型(如实体级查找或聚合计算)对齐的必要性。