Bro77XP ने शून्य-शॉट वॉइस क्लोनिंग के साथ शुरुआती लोगों के लिए स्थानीय AI VTuber जारी किया

Bro77XP ने शुरुआती लोगों और गैर-प्रोग्रामर्स के लिए डिज़ाइन किए गए 100% स्थानीय, मुफ्त AI VTuber प्रोजेक्ट को रिलीज़ किया है। सिस्टम वास्तविक समय में अंग्रेजी भाषण पहचान के लिए Whisper का उपयोग करता है, LLM इनफरेंस के लिए llama3.2 मॉडल के साथ Ollama का उपयोग करता है, और टेक्स्ट-टू-स्पीच जनरेशन के लिए Chatterbox TTS का उपयोग करता है। इसमें तुरंत शून्य-शॉट वॉइस क्लोनिंग की सुविधा है और यह एक निरंतर सुनने लूप में काम करता है जो मौन को स्वचालित रूप से पहचानता है और केवल तभी रिकॉर्ड करता है जब भाषण मौजूद हो। सॉफ़्टवेयर उत्पन्न प्रतिक्रियाओं के आधार पर मुंह की अभिव्यक्तियों को नियंत्रित करने और भावना एनिमेशन को ट्रिगर करने के लिए VTube Studio के साथ अपने API के माध्यम से एकीकृत होता है। हालांकि इसे शुरू में AMD GPU पर विकसित किया गया था, कोड मुख्य रूप से CPU उपयोगकर्ताओं का समर्थन करता है, जिससे विशिष्ट NVIDIA या AMD हार्डवेयर के बिना संचालन संभव हो जाता है। सेटअप के लिए Python 3.10.11 की आवश्यकता होती है और इसमें openai-whisper, pyaudio, और websocket-client जैसे कोर निर्भरताओं को स्थापित करने के लिए एक आभासी वातावरण बनाना शामिल है।