تقيّم دراسة ما إذا كانت التجزئة الدلالية القائمة على العناقيد تحسن جودة الاسترجاع والإجابة في أنظمة التوليد المعزز بالاسترجاع (RAG) مقارنة باستراتيجيات التجزئة ذات الحجم الثابت والمتكررة. يركز التقييم على الأطروحات الأكاديمية الطويلة والمهيكل باستخدام إطار عمل RAGAs.

  • لم تتفوق التجزئة القائمة على العناقيد على الاستراتيجيات الأبسط في التكوين المختبر.
  • تفاوتت الأداء بشكل كبير بين الأسئلة الثابتة والأسئلة الخاصة بالمستند، ويرجع ذلك على الأرجح إلى تنسيق المستند ومعالجته مسبقاً.
  • أظهرت الموثوقية القائمة على RAGs موثوقية محدودة في هذا الإعداد.

تشير النتائج إلى أن طرق التجزئة الأكثر تعقيداً قد لا توفر مزايا مقارنة بالأساليب الأبسط لهذا الاستخدام المحدد.