Исследование оценивает, улучшает ли кластерная семантическая чанкизация качество извлечения и ответов в системах Retrieval-Augmented Generation (RAG) по сравнению со стратегиями фиксированного размера и рекурсивной чанкизации. Оценка сосредоточена на длинных структурированных академических диссертациях с использованием фреймворка RAGAs.
- Кластерная чанкизация не превосходит более простые стратегии в протестированной конфигурации.
- Производительность при ответах на фиксированные вопросы против вопросов, специфичных для документа, существенно варьировалась, что, вероятно, связано с форматированием документа и предварительной обработкой.
- Показатель достоверности (faithfulness) на основе RAGAs продемонстрировал ограниченную надежность в данной настройке.
Результаты указывают на то, что более сложные методы чанкизации могут не давать преимуществ перед простыми подходами для данного конкретного случая использования.