Исследователи представили мультимодальный университетский чат-бот, предназначенный для помощи заинтересованным сторонам в получении своевременной информации с использованием генерации, дополненной извлечением (RAG). Система объединяет большую языковую модель с семантическим поиском для генерации контекстно-зависимых ответов на основе институциональных ресурсов, таких как университетский справочник.

  • Принимает текстовые и изображений запросы через модель зрения и языка.
  • Применяет квантованный вывод для быстрого развёртывания на оборудовании с ограниченными ресурсами.
  • Использует масштабируемый бэкенд, созданный с помощью FastAPI, и отзывчивый фронтенд, разработанный с помощью Next.js.
  • Снижает галлюцинации с 31,7% до 6,6% по сравнению с существующими системами.

Количественная оценка подтверждает эффективность привязки к извлечённым данным, тогда как мультимодальное тестирование показывает высокие оценки удовлетворённости для обоих типов запросов, несмотря на увеличение времени ответа для визуальных входных данных.