Ce projet permet une conversation vocale avec le modèle Gemma 4 31B via un avatar 3D qui écoute, parle et affiche des expressions faciales dynamiques ainsi que des gestes de la main. Le système expose des outils fonctionnels tels que set_mood, make_hand_gesture et make_facial_expression au LLM, lui permettant de décider de manière autonome des réactions de l'avatar.

  • La pile utilise des modèles ouverts incluant silero VAD, parakeet pour la STT, Qwen3-TTS et Gemma 4 31B servis par Cerebras.
  • La communication se fait via du PCM brut sur une connexion WebSocket standard.
  • La synchronisation labiale et le rendu de l'avatar sont gérés par les projets TalkingHead et HeadAudio de met4citizen.

Cette configuration démontre comment intégrer plusieurs composants open source pour des expériences d'IA multimodales interactives en temps réel.