Pesquisadores apresentam um chatbot universitário multimodal projetado para ajudar partes interessadas a acessar informações oportunas usando geração aumentada por recuperação (RAG). O sistema combina um modelo de linguagem grande com recuperação semântica para gerar respostas baseadas no contexto a partir de recursos institucionais, como o manual da universidade.
- Aceita consultas de texto e imagem por meio de um modelo de visão e linguagem.
- Aplica inferência quantizada para implantação rápida em hardware com recursos limitados.
- Usa um backend escalável construído com FastAPI e um frontend responsivo desenvolvido com Next.js.
- Reduz as alucinações de 31,7% para 6,6% em comparação com sistemas existentes.
A avaliação quantitativa confirma a eficácia do fundamento por recuperação, enquanto os testes multimodais mostram pontuações de satisfação robustas para ambos os tipos de consulta, apesar dos tempos de resposta aumentados para entradas visuais.