Исследователи представили мультимодальный университетский чат-бот, предназначенный для помощи заинтересованным сторонам в получении своевременной информации с использованием генерации, дополненной извлечением (RAG). Система объединяет большую языковую модель с семантическим поиском для генерации контекстно-зависимых ответов на основе институциональных ресурсов, таких как университетский справочник.
- Принимает текстовые и изображений запросы через модель зрения и языка.
- Применяет квантованный вывод для быстрого развёртывания на оборудовании с ограниченными ресурсами.
- Использует масштабируемый бэкенд, созданный с помощью FastAPI, и отзывчивый фронтенд, разработанный с помощью Next.js.
- Снижает галлюцинации с 31,7% до 6,6% по сравнению с существующими системами.
Количественная оценка подтверждает эффективность привязки к извлечённым данным, тогда как мультимодальное тестирование показывает высокие оценки удовлетворённости для обоих типов запросов, несмотря на увеличение времени ответа для визуальных входных данных.