audio.cppランタイムの開発者は、VibeVoice 1.5Bモデルのサポートを追加し、ネイティブなC++/ggml環境で長時間のマルチスピーカーテキスト読み上げを可能にしました。

  • RTX 5090でのベンチマークでは、VibeVoiceは22.95分で93.6分分の音声を生成(リアルタイムの4.08倍速)。
  • これは量子化なしのPythonベースラインと比較して2.86倍の高速化です。
  • このランタイムは、再利用可能なセッション、安定したメモリ動作、およびローカル推論向けのCUDA集中型最適化を提供することを目指しています。

この追加により、Pythonセットアップのオーバーヘッドを回避し、対話やナレーションタスク向けに最適化されたパフォーマンスを提供することで、長時間音声モデルのローカル利用がより実用的になりました。