研究は、クラスターベースのセマンティックチャンキングが、固定サイズおよび再帰的チャンキング戦略と比較して、検索拡張生成(RAG)システムにおける検索と回答の品質を向上させるかどうかを評価する。この評価は、RAGAsフレームワークを使用して、構造化された学術論文に焦点を当てている。
- テストされた構成では、クラスターベースのチャンキングはより単純な戦略を上回らなかった。
- 固定質問と文書固有の質問に対するパフォーマンスは大幅に変動し、これは文書のフォーマットや前処理に関連している可能性がある。
- このセットアップにおけるRAGAsベースの忠実度は限られた信頼性しか示さなかった。
これらの知見は、この特定のユースケースにおいて、より複雑なチャンキング手法が単純なアプローチよりも優位性をもたらさない可能性を示唆している。