Des chercheurs présentent un chatbot universitaire multimodal conçu pour aider les parties prenantes à accéder à des informations opportunes en utilisant la génération augmentée par récupération (RAG). Le système combine un grand modèle de langage avec une récupération sémantique pour générer des réponses contextuelles à partir de ressources institutionnelles telles que le manuel de l'université.
- Accepte les requêtes textuelles et image via un modèle vision-langage.
- Applique l'inférence quantifiée pour un déploiement rapide sur du matériel contraint.
- Utilise un backend évolutible construit avec FastAPI et un frontend réactif développé avec Next.js.
- Réduit les hallucinations de 31,7 % à 6,6 % par rapport aux systèmes existants.
L'évaluation quantitative confirme l'efficacité de l'ancrage par récupération, tandis que les tests multimodaux montrent des scores de satisfaction élevés pour les deux types de requêtes malgré une augmentation du temps de réponse pour les entrées visuelles.