Синтетический бенчмарк RAG показывает: форма документов даёт больший прирост, чем тонкая настройка модели

Синтетический бенчмарк на базе базы данных здравоохранения демонстрирует, что оптимизация представления данных, например использование сводных документов и поиска Small-to-Big, значительно превосходит стандартные улучшения RAG, такие как переформулирование запросов и реранкинг.

Автор создал набор из 30 вопросов для оценки на основе вымышленных пациентов, врачей и счетов для тестирования различных техник RAG.
Базовый векторный поиск дал оценку ответа 2.856/5, а добавление переформулирования запроса и реранкинга BGE повысило её лишь до 3.056/5.
Поиск Small-to-Big (поиск по небольшим фрагментам с последующим расширением до полных записей) улучшил оценку до 4.044/5, обеспечив точное совпадение без дефицита контекста.
Добавление предварительно вычисленных сводных документов для агрегатов, таких как нагрузка по приёмам и итоги счетов, повысило оценку ответа до 4.622/5 и оценку сложных вопросов до 4.500/5.
Финальный запуск реранкера Jina достиг наивысшего MRR поиска 0.792, но конфигурация со сводными документами обеспечила наилучшее общее качество ответов.

Результаты указывают на то, что качество RAG часто является проблемой представления данных, а не модели, подчёркивая необходимость согласования структуры документа с типами запросов, такими как поиск по сущностям или вычисление агрегатов.