Chatbot universitas multimodal mengurangi halusinasi melalui RAG

Para peneliti menyajikan chatbot universitas multimodal yang dirancang untuk membantu pemangku kepentingan mengakses informasi tepat waktu menggunakan generasi yang ditingkatkan dengan pengambilan (RAG). Sistem ini menggabungkan model bahasa besar dengan pengambilan semantik untuk menghasilkan respons berbasis konteks dari sumber daya institusional seperti buku pegangan universitas.

Menerima kueri teks dan gambar melalui model visi-bahasa.
Menerapkan inferensi terkuantisasi untuk penyebaran cepat pada perangkat keras yang terbatas.
Menggunakan backend yang dapat diskalakan yang dibangun dengan FastAPI dan frontend responsif yang dikembangkan dengan Next.js.
Mengurangi halusinasi dari 31,7% menjadi 6,6% dibandingkan dengan sistem yang ada.

Evaluasi kuantitatif mengkonfirmasi efektivitas penjangkaran pengambilan, sementara pengujian multimodal menunjukkan skor kepuasan yang kuat di kedua jenis kueri meskipun waktu respons meningkat untuk input visual.