Bro77XP выпустил простой для начинающих локальный AI-VTuber с клонированием голоса в zero-shot режиме

Bro77XP выпустил полностью локальный бесплатный проект AI-VTuber, предназначенный для начинающих и непрограммистов. Система использует Whisper для распознавания английской речи в реальном времени, Ollama с моделью llama3.2 для вывода LLM и Chatterbox TTS для преобразования текста в речь. Она поддерживает мгновенное клонирование голоса в zero-shot режиме и работает в цикле непрерывного прослушивания, автоматически обнаруживая тишину и записывая звук только при наличии речи. Программное обеспечение интегрируется с VTube Studio через его API для управления выражениями рта и запуска анимаций эмоций на основе сгенерированных ответов. Хотя изначально проект разрабатывался на GPU AMD, код в основном поддерживает пользователей CPU, позволяя работать без специфического оборудования NVIDIA или AMD. Для настройки требуется Python 3.10.11 и создание виртуального окружения для установки основных зависимостей, таких как openai-whisper, pyaudio и websocket-client.