يتيح هذا المشروع الدردشة الصوتية مع نموذج Gemma 4 31B عبر تمثيل ثلاثي الأبعاد يستمع ويتحدث ويعرض تعابير وجه وحركات يد ديناميكية. يعرض النظام أدوات وظيفية مثل set_mood و make_hand_gesture و make_facial_expression للنموذج اللغوي الكبير (LLM)، مما يسمح له باتخاذ قرارات مستقلة بشأن ردود فعل التمثيل.
- تستخدم المجموعة نماذج مفتوحة المصدر تشمل silero VAD و parakeet للتعرف على الكلام إلى نص (STT) و Qwen3-TTS و Gemma 4 31B التي تديرها Cerebras.
- يحدث الاتصال عبر PCM خام فوق اتصال WebSocket عادي.
- يتم التعامل مع مزامنة الشفاه وعرض التمثيل بواسطة مشاريع TalkingHead و HeadAudio من met4citizen.
توضح هذه الإعدادات كيفية دمج مكونات متعددة مفتوحة المصدر لتجارب ذكاء اصطناعي متعدد الوسائط تفاعلية في الوقت الفعلي.