Chatbot universitário multimodal reduz alucinações via RAG

Pesquisadores apresentam um chatbot universitário multimodal projetado para ajudar partes interessadas a acessar informações oportunas usando geração aumentada por recuperação (RAG). O sistema combina um modelo de linguagem grande com recuperação semântica para gerar respostas baseadas no contexto a partir de recursos institucionais, como o manual da universidade.

Aceita consultas de texto e imagem por meio de um modelo de visão e linguagem.
Aplica inferência quantizada para implantação rápida em hardware com recursos limitados.
Usa um backend escalável construído com FastAPI e um frontend responsivo desenvolvido com Next.js.
Reduz as alucinações de 31,7% para 6,6% em comparação com sistemas existentes.

A avaliação quantitativa confirma a eficácia do fundamento por recuperação, enquanto os testes multimodais mostram pontuações de satisfação robustas para ambos os tipos de consulta, apesar dos tempos de resposta aumentados para entradas visuais.