Bro77XP lançou um projeto de VTuber de IA 100% local e gratuito, projetado para iniciantes e não programadores. O sistema utiliza Whisper para reconhecimento de fala em inglês em tempo real, Ollama com o modelo llama3.2 para inferência de LLM e Chatterbox TTS para geração de texto-para-fala. Ele possui clonagem de voz zero-shot instantânea e opera em um loop de escuta contínua que detecta automaticamente o silêncio para gravar apenas quando há fala presente. O software se integra ao VTube Studio por meio de sua API para controlar expressões bucais e acionar animações de emoção com base nas respostas geradas. Embora inicialmente desenvolvido em uma GPU AMD, o código suporta principalmente usuários de CPU, permitindo operação sem hardware específico da NVIDIA ou AMD. A configuração requer Python 3.10.11 e envolve a criação de um ambiente virtual para instalar dependências principais como openai-whisper, pyaudio e websocket-client.