audio.cpp добавляет нативную поддержку VibeVoice 1.5B для локального аудиоинференса на C++

Автор рантайма audio.cpp добавил поддержку модели VibeVoice 1.5B, что позволяет генерировать длинную речь нескольких говорящих в среде native C++/ggml.

Бенчмарки на RTX 5090 показывают, что VibeVoice генерирует 93.6 минут аудио за 22.95 минуты (4.08x от реального времени).
Это представляет собой ускорение в 2.86 раза по сравнению с базовой реализацией на Python без квантования.

Рантайм стремится обеспечить переиспользуемые сессии, стабильное поведение памяти и оптимизацию под CUDA для локального инференса.

Это добавление делает модели длинного аудио более практичными для локального использования, избегая накладных расходов на настройку Python и предлагая оптимизированную производительность для задач диалога и повествования.