يتيح هذا المشروع الدردشة الصوتية مع نموذج Gemma 4 31B عبر تمثيل ثلاثي الأبعاد يستمع ويتحدث ويعرض تعابير وجه وحركات يد ديناميكية. يعرض النظام أدوات وظيفية مثل set_mood و make_hand_gesture و make_facial_expression للنموذج اللغوي الكبير (LLM)، مما يسمح له باتخاذ قرارات مستقلة بشأن ردود فعل التمثيل.

  • تستخدم المجموعة نماذج مفتوحة المصدر تشمل silero VAD و parakeet للتعرف على الكلام إلى نص (STT) و Qwen3-TTS و Gemma 4 31B التي تديرها Cerebras.
  • يحدث الاتصال عبر PCM خام فوق اتصال WebSocket عادي.
  • يتم التعامل مع مزامنة الشفاه وعرض التمثيل بواسطة مشاريع TalkingHead و HeadAudio من met4citizen.

توضح هذه الإعدادات كيفية دمج مكونات متعددة مفتوحة المصدر لتجارب ذكاء اصطناعي متعدد الوسائط تفاعلية في الوقت الفعلي.