यह परियोजना एक 3D अवतार के माध्यम से Gemma 4 31B मॉडल के साथ वॉइस चैट को सक्षम बनाती है जो सुनता है, बोलता है और गतिशील चेहरे के अभिव्यक्तियों और हाथ के इशारों को प्रदर्शित करता है। सिस्टम LLM को set_mood, make_hand_gesture, और make_facial_expression जैसे फंक्शन टूल्स को एक्सपोज़ करता है, जिससे यह स्वतंत्र रूप से अवतार की प्रतिक्रियाओं का निर्णय ले सकता है।
- स्टैक में silero VAD, STT के लिए parakeet, Qwen3-TTS, और Cerebras द्वारा सेवा प्राप्त Gemma 4 31B सहित ओपन मॉडल्स का उपयोग होता है।
- संचार एक साधारण WebSocket कनेक्शन पर रॉ PCM के माध्यम से होता है।
- लिप-सिंकिंग और अवतार रेंडरिंग met4citizen के TalkingHead और HeadAudio प्रोजेक्ट्स द्वारा संभाली जाती है।
यह सेटअप दिखाता है कि रियल-टाइम, इंटरैक्टिव मल्टीमोडल AI अनुभवों के लिए कई ओपन-सोर्स कंपोनेंट्स को कैसे एकीकृत किया जाए।