audio.cpp: 12 аудио-моделей в одном C++ рантайме с ускорением до 5x

Проект с открытым исходным кодом audio.cpp предоставляет нативный C++ фреймворк для инференса аудио-моделей, построенный на базе ggml; в настоящее время поддерживает 12 выпущенных семейств моделей, включая TTS, ASR и конвертацию голоса. Бенчмарки на Ubuntu/CUDA демонстрируют, что производительность синтеза речи (text-to-speech) в этом рантайме до 5 раз быстрее по сравнению с соответствующими эталонными реализациями на Python.

Выпущенные модели включают Qwen3-TTS, PocketTTS, Vevo2, Chatterbox, MioTTS, OmniVoice, VoxCPM2, Qwen3-ASR, Seed-VC, MioCodec, Silero VAD и Qwen3 Forced Aligner.
PocketTTS достигает ускорения в 3.68x на однократных запусках (1-shot runs) и генерирует аудио со скоростью 48.40x от реального времени для длинных входных данных.
Vevo2 показывает ускорение в 5.03x на однократных запусках, тогда как Qwen3-TTS демонстрирует улучшение до 3.06x при генерации длинных фрагментов.
Фреймворк обеспечивает общий рантайм, обработку сессий и CLI-рабочие процессы, позволяя выполнять сложные конвейеры, такие как переозвучка на том же языке, одной командой.

Этот унифицированный подход на C++ устраняет необходимость в отдельных средах Python для каждой модели, предлагая значительно более быстрое время инференса и упрощенное развертывание для задач обработки аудио.