Bro77XP lanza un VTuber de IA local para principiantes con clonación de voz zero-shot

Bro77XP ha lanzado un proyecto de VTuber de IA 100% local y gratuito, diseñado para principiantes y no programadores. El sistema utiliza Whisper para el reconocimiento de voz en inglés en tiempo real, Ollama con el modelo llama3.2 para inferencia de LLM, y Chatterbox TTS para la generación de texto a voz. Cuenta con clonación de voz instantánea zero-shot y opera en un bucle de escucha continua que detecta automáticamente el silencio para grabar solo cuando hay presencia de habla. El software se integra con VTube Studio a través de su API para controlar las expresiones de la boca y activar animaciones de emociones basadas en las respuestas generadas. Aunque inicialmente se desarrolló en una GPU AMD, el código admite principalmente a usuarios de CPU, permitiendo su funcionamiento sin hardware específico de NVIDIA o AMD. La configuración requiere Python 3.10.11 e implica crear un entorno virtual para instalar dependencias principales como openai-whisper, pyaudio y websocket-client.