El proyecto de código abierto audio.cpp proporciona un marco de inferencia nativo en C++ para modelos de audio basados en ggml, que actualmente admite 12 familias de modelos lanzadas, incluyendo TTS, ASR y conversión de voz. Las pruebas de rendimiento en Ubuntu/CUDA demuestran que el rendimiento de texto a voz en este entorno de ejecución es hasta 5 veces más rápido que las implementaciones de referencia correspondientes en Python.
- Los modelos lanzados incluyen Qwen3-TTS, PocketTTS, Vevo2, Chatterbox, MioTTS, OmniVoice, VoxCPM2, Qwen3-ASR, Seed-VC, MioCodec, Silero VAD y el Alineador Forzado Qwen3.
- PocketTTS logra una mejora de velocidad de 3.68x en ejecuciones de 1-shot y genera audio a 48.40x la velocidad real para entradas de larga duración.
- Vevo2 alcanza una mejora de velocidad de 5.03x en ejecuciones de 1-shot, mientras que Qwen3-TTS muestra una mejora de hasta 3.06x en la generación de larga duración.
- El marco permite un entorno de ejecución compartido, gestión de sesiones y flujos de trabajo CLI, permitiendo pipelines complejos como el redoblaje en el mismo idioma mediante un solo comando.
Este enfoque unificado en C++ elimina la necesidad de entornos Python separados para cada modelo, ofreciendo tiempos de inferencia significativamente más rápidos y una implementación simplificada para tareas de procesamiento de audio.