Кластерная семантическая чанкизация не превосходит фиксированный размер или рекурсивную чанкизацию для академического RAG

Исследование оценивает, улучшает ли кластерная семантическая чанкизация качество извлечения и ответов в системах Retrieval-Augmented Generation (RAG) по сравнению со стратегиями фиксированного размера и рекурсивной чанкизации. Оценка сосредоточена на длинных структурированных академических диссертациях с использованием фреймворка RAGAs.

Кластерная чанкизация не превосходит более простые стратегии в протестированной конфигурации.
Производительность при ответах на фиксированные вопросы против вопросов, специфичных для документа, существенно варьировалась, что, вероятно, связано с форматированием документа и предварительной обработкой.
Показатель достоверности (faithfulness) на основе RAGAs продемонстрировал ограниченную надежность в данной настройке.

Результаты указывают на то, что более сложные методы чанкизации могут не давать преимуществ перед простыми подходами для данного конкретного случая использования.