Gemma Avatar: Berbicara dengan Gemma 4-31B secara tatap muka

Proyek ini memungkinkan obrolan suara dengan model Gemma 4 31B melalui avatar 3D yang mendengarkan, berbicara, dan menampilkan ekspresi wajah serta gerakan tangan yang dinamis. Sistem mengekspos alat fungsi seperti set_mood, make_hand_gesture, dan make_facial_expression ke LLM, memungkinkannya untuk secara otonom memutuskan reaksi avatar.

Tumpukan menggunakan model terbuka termasuk silero VAD, parakeet untuk STT, Qwen3-TTS, dan Gemma 4 31B yang dilayani oleh Cerebras.
Komunikasi terjadi melalui PCM mentah di atas koneksi WebSocket biasa.
Sinkronisasi bibir dan rendering avatar ditangani oleh proyek TalkingHead dan HeadAudio dari met4citizen.

Pengaturan ini menunjukkan cara mengintegrasikan beberapa komponen sumber terbuka untuk pengalaman AI multimodal interaktif secara real-time.