Proyek ini memungkinkan obrolan suara dengan model Gemma 4 31B melalui avatar 3D yang mendengarkan, berbicara, dan menampilkan ekspresi wajah serta gerakan tangan yang dinamis. Sistem mengekspos alat fungsi seperti set_mood, make_hand_gesture, dan make_facial_expression ke LLM, memungkinkannya untuk secara otonom memutuskan reaksi avatar.

  • Tumpukan menggunakan model terbuka termasuk silero VAD, parakeet untuk STT, Qwen3-TTS, dan Gemma 4 31B yang dilayani oleh Cerebras.
  • Komunikasi terjadi melalui PCM mentah di atas koneksi WebSocket biasa.
  • Sinkronisasi bibir dan rendering avatar ditangani oleh proyek TalkingHead dan HeadAudio dari met4citizen.

Pengaturan ini menunjukkan cara mengintegrasikan beberapa komponen sumber terbuka untuk pengalaman AI multimodal interaktif secara real-time.