В данном исследовании изучается производительность малых языковых моделей на этапе генерации в системе Retrieval-Augmented Generation (RAG). Исследование оценивает эти модели с использованием разнообразных открытых и проприетарных наборов данных для проверки их эффективности в различных предметных областях.
- Малые языковые модели могут выполняться непосредственно на устройстве без необходимости использования GPU.
- Система работает в приемлемые сроки, что позволяет развертывать её на устройствах.
- Для бенчмарков использовались как открытые, так и проприетарные наборы данных, охватывающие разнообразные типы вопросов.
Результаты показывают, что системы RAG, работающие на малых языковых моделях, пригодны для выполнения на устройстве, предлагая практическую альтернативу большим моделям, которые обычно требуют значительных вычислительных ресурсов.