Автор рантайма audio.cpp добавил поддержку модели VibeVoice 1.5B, что позволяет генерировать длинную речь нескольких говорящих в среде native C++/ggml.
- Бенчмарки на RTX 5090 показывают, что VibeVoice генерирует 93.6 минут аудио за 22.95 минуты (4.08x от реального времени).
- Это представляет собой ускорение в 2.86 раза по сравнению с базовой реализацией на Python без квантования.
Рантайм стремится обеспечить переиспользуемые сессии, стабильное поведение памяти и оптимизацию под CUDA для локального инференса.
Это добавление делает модели длинного аудио более практичными для локального использования, избегая накладных расходов на настройку Python и предлагая оптимизированную производительность для задач диалога и повествования.