media r/LocalLLaMA · 1 小时前 · open_models

合成RAG基准测试显示，文档结构带来的提升大于模型微调

译自 English → 中文

一项针对合成医疗数据库的基准测试表明，优化数据表示（例如使用汇总文档和小到大的检索）显著优于标准的RAG升级方案，如查询重写和重排序。

作者构建了一个包含30个问题的评估集，涵盖虚构的患者、医生和账单记录，以测试各种RAG技术。
基础向量搜索的答案得分为2.856/5，而加入查询重写和BGE重排序后仅提升至3.056/5。
“小到大”检索（先搜索小块内容再扩展至完整记录）通过将答案得分提高至4.044/5，实现了精确匹配且避免了上下文饥饿。
为预约负载和账单总额等聚合数据添加预计算的汇总文档后，答案得分提升至4.622/5，难题得分提升至4.500/5。
最后一轮Jina重排序器运行取得了最高的检索MRR（0.792），但汇总文档配置提供了最佳的整体答案质量。

结果表明，RAG的质量往往是一个数据表示问题，而非模型问题，强调了将文档结构与查询类型（如实体级查找或聚合计算）对齐的必要性。

重要性 1/3 r/LocalLLaMA Benchmark results Retrieval & RAG