Bro77XP 发布了完全本地化、免费的 AI VTuber 项目,专为初学者和非程序员设计。该系统利用 Whisper 进行实时英语语音识别,使用 Ollama 配合 llama3.2 模型进行 LLM 推理,并使用 Chatterbox TTS 进行文本转语音生成。它具备即时零样本语音克隆功能,并在持续监听循环中运行,自动检测静音以仅在检测到语音时进行录音。该软件通过其 API 与 VTube Studio 集成,以控制口型表情并根据生成的响应触发动作动画。虽然最初在 AMD GPU 上开发,但代码主要支持 CPU 用户,允许在没有特定 NVIDIA 或 AMD 硬件的情况下运行。设置需要 Python 3.10.11,并涉及创建虚拟环境以安装核心依赖项,如 openai-whisper、pyaudio 和 websocket-client。
Bro77XP 发布面向初学者的本地 AI VTuber,支持零样本语音克隆
译自 English → 中文