Мультимодальный университетский чат-бот снижает галлюцинации за счёт RAG

Исследователи представили мультимодальный университетский чат-бот, предназначенный для помощи заинтересованным сторонам в получении своевременной информации с использованием генерации, дополненной извлечением (RAG). Система объединяет большую языковую модель с семантическим поиском для генерации контекстно-зависимых ответов на основе институциональных ресурсов, таких как университетский справочник.

Принимает текстовые и изображений запросы через модель зрения и языка.
Применяет квантованный вывод для быстрого развёртывания на оборудовании с ограниченными ресурсами.
Использует масштабируемый бэкенд, созданный с помощью FastAPI, и отзывчивый фронтенд, разработанный с помощью Next.js.
Снижает галлюцинации с 31,7% до 6,6% по сравнению с существующими системами.

Количественная оценка подтверждает эффективность привязки к извлечённым данным, тогда как мультимодальное тестирование показывает высокие оценки удовлетворённости для обоих типов запросов, несмотря на увеличение времени ответа для визуальных входных данных.