media r/LocalLLaMA · 2 小时前 · 来源： 5 天前 · open_models

audio.cpp 添加对本地音频推理的原生 C++ VibeVoice 1.5B 支持

译自 English → 中文

audio.cpp 运行时的作者添加了对 VibeVoice 1.5B 模型的支持，在原生 C++/ggml 环境中实现了长篇幅多说话者文本转语音生成。

在 RTX 5090 上的基准测试显示，VibeVoice 在 22.95 分钟内生成了 93.6 分钟的音频（4.08x 实时速度）。
与未量化的 Python 基线相比，这代表了 2.86x 的加速。

该运行时旨在为本地推理提供可重用会话、稳定的内存行为以及针对 CUDA 的优化。

通过避免 Python 设置开销并为对话和叙述任务提供优化性能，此添加使长篇幅音频模型在本地使用更加实用。

重要性 1/3 r/LocalLLaMA Inference efficiency Voice & audio