Sebuah studi mengevaluasi apakah chunking semantik berbasis klaster meningkatkan kualitas pengambilan dan jawaban dalam sistem Retrieval-Augmented Generation (RAG) dibandingkan dengan strategi chunking ukuran tetap dan rekursif. Evaluasi berfokus pada tesis akademik yang panjang dan terstruktur menggunakan framework RAGAs.

  • Chunking berbasis klaster tidak lebih unggul daripada strategi yang lebih sederhana dalam konfigurasi yang diuji.
  • Kinerja pada pertanyaan tetap versus pertanyaan spesifik dokumen bervariasi secara substansial, kemungkinan terkait dengan format dokumen dan pra-pemrosesan.
  • Kejujuran berbasis RAGas menunjukkan keandalan terbatas dalam pengaturan ini.

Temuan tersebut menunjukkan bahwa metode chunking yang lebih kompleks mungkin tidak memberikan keunggulan dibandingkan pendekatan yang lebih sederhana untuk kasus penggunaan spesifik ini.