Bro77XP تطلق VTuber ذكاء اصطناعي محلي سهل للمبتدئين مع استنساخ صوتي Zero-Shot

أصدرت Bro77XP مشروع VTuber بالذكاء الاصطناعي يعمل محليًا بنسبة 100% ومجاني، مصمم للمبتدئين وغير المبرمجين. يستخدم النظام Whisper للتعرف على الكلام الإنجليزي في الوقت الفعلي، وOllama مع نموذج llama3.2 للاستنتاج اللغوي (LLM)، وChatterbox TTS لتوليد الكلام من النص. يتميز بميزة استنساخ الصوت فوري Zero-Shot ويعمل في حلقة استماع مستمرة تكتشف الصمت تلقائيًا لتسجيل الكلام فقط عند وجوده. يتكامل البرنامج مع VTube Studio عبر واجهة برمجة التطبيقات (API) للتحكم في تعبيرات الفم وتشغيل رسوم متحركة للعواطف بناءً على الاستجابات المولدة. وعلى الرغم من أنه تم تطويره في البداية على معالج رسومات AMD، فإن الكود يدعم بشكل أساسي مستخدمي وحدة المعالجة المركزية (CPU)، مما يسمح بالعمل دون حاجة إلى عتاد NVIDIA أو AMD محدد. يتطلب الإعداد Python 3.10.11 ويتضمن إنشاء بيئة افتراضية لتثبيت التبعيات الأساسية مثل openai-whisper وpyaudio وwebsocket-client.