연구자들은 이해관계자가 시의적절한 정보에 접근할 수 있도록 설계된 검색 증강 생성(RAG)을 활용하는 다중 모달 대학 챗봇을 제시했다. 이 시스템은 대규모 언어 모델과 의미론적 검색을 결합하여 대학 핸드북과 같은 기관 리소스에서 문맥 기반 응답을 생성한다.

  • 비전-언어 모델을 통해 텍스트 및 이미지 쿼리를 수용한다.
  • 제한된 하드웨어에서의 신속한 배포를 위해 양자화된 추론을 적용한다.
  • FastAPI로 구축된 확장 가능한 백엔드와 Next.js로 개발된 반응형 프론트엔드를 사용한다.
  • 기존 시스템과 비교하여 환각 현상을 31.7%에서 6.6%로 감소시킨다.

정량적 평가는 검색 기반의 유효성을 확인했으며, 다중 모달 테스트에서는 시각적 입력에 대한 응답 시간 증가에도 불구하고 두 쿼리 유형 모두에서 높은 만족도 점수를 보였다.