Los investigadores presentan un chatbot universitario multimodal diseñado para ayudar a las partes interesadas a acceder a información oportuna utilizando generación aumentada por recuperación (RAG). El sistema combina un modelo de lenguaje grande con recuperación semántica para generar respuestas basadas en el contexto a partir de recursos institucionales como el manual de la universidad.
- Acepta consultas de texto e imágenes a través de un modelo de visión y lenguaje.
- Aplica inferencia cuantizada para un despliegue rápido en hardware con recursos limitados.
- Utiliza un backend escalable construido con FastAPI y un frontend receptivo desarrollado con Next.js.
- Reduce las alucinaciones del 31,7% al 6,6% en comparación con los sistemas existentes.
La evaluación cuantitativa confirma la efectividad de la fundamentación por recuperación, mientras que las pruebas multimodales muestran puntuaciones de satisfacción sólidas para ambos tipos de consultas a pesar de los tiempos de respuesta aumentados para entradas visuales.