audio.cpp 运行时的作者添加了对 VibeVoice 1.5B 模型的支持,在原生 C++/ggml 环境中实现了长篇幅多说话者文本转语音生成。
- 在 RTX 5090 上的基准测试显示,VibeVoice 在 22.95 分钟内生成了 93.6 分钟的音频(4.08x 实时速度)。
- 与未量化的 Python 基线相比,这代表了 2.86x 的加速。
该运行时旨在为本地推理提供可重用会话、稳定的内存行为以及针对 CUDA 的优化。
通过避免 Python 设置开销并为对话和叙述任务提供优化性能,此添加使长篇幅音频模型在本地使用更加实用。