一项研究评估了与固定大小和递归分块策略相比,基于聚类的语义分块是否能提高检索增强生成(RAG)系统中的检索和答案质量。该评估侧重于使用 RAGAs 框架处理长且结构化的学术论文。

  • 在测试的配置下,基于聚类的分块并未优于更简单的策略。
  • 针对固定问题与文档特定问题的表现差异显著,这可能与文档格式化和预处理有关。
  • 在此设置中,基于 RAGAs 的忠实度显示出有限的可靠性。

研究结果表明,对于这种特定的用例,更复杂的分块方法可能不会比简单的方法提供优势。