Bro77XP a publié un projet de VTuber IA 100% local et gratuit, conçu pour les débutants et les non-programmeurs. Le système utilise Whisper pour la reconnaissance vocale anglaise en temps réel, Ollama avec le modèle llama3.2 pour l'inférence LLM, et Chatterbox TTS pour la synthèse vocale (TTS). Il propose un clonage vocal instantané zero-shot et fonctionne dans une boucle d'écoute continue qui détecte automatiquement le silence pour n'enregistrer que lorsqu'il y a de la parole. Le logiciel s'intègre à VTube Studio via son API pour contrôler les expressions buccales et déclencher des animations émotionnelles basées sur les réponses générées. Bien qu'initialement développé sur un GPU AMD, le code prend principalement en charge les utilisateurs de CPU, permettant le fonctionnement sans matériel NVIDIA ou AMD spécifique. La configuration nécessite Python 3.10.11 et implique la création d'un environnement virtuel pour installer les dépendances principales comme openai-whisper, pyaudio et websocket-client.