Bro77XPは、初心者や非プログラマーのために設計された100%ローカルの無料AI VTuberプロジェクトをリリースしました。このシステムは、リアルタイムの英語音声認識にWhisperを使用し、LLM推論にllama3.2モデル付きOllamaを使用し、テキストから音声への生成にChatterbox TTSを使用します。即時ゼロショット音声クローニング機能を備え、沈黙を自動的に検出して発話がある時のみ録音する継続的なリスニングループで動作します。ソフトウェアはVTube StudioのAPIと統合され、生成された応答に基づいて口元表情を制御し、感情アニメーションをトリガーします。当初AMD GPU上で開発されましたが、コードは主にCPUユーザーをサポートしており、特定のNVIDIAまたはAMDハードウェアなしで動作させることができます。セットアップにはPython 3.10.11が必要で、openai-whisper、pyaudio、websocket-clientなどのコア依存関係をインストールするために仮想環境を作成する必要があります。
Bro77XP、ゼロショット音声クローニング対応の初心者向けローカルAI VTuberをリリース
翻訳元 English → 日本語