audio.cpp: 12 modelos de audio en un solo entorno de ejecución C++ con hasta 5x de mejora de velocidad

El proyecto de código abierto audio.cpp proporciona un marco de inferencia nativo en C++ para modelos de audio basados en ggml, que actualmente admite 12 familias de modelos lanzadas, incluyendo TTS, ASR y conversión de voz. Las pruebas de rendimiento en Ubuntu/CUDA demuestran que el rendimiento de texto a voz en este entorno de ejecución es hasta 5 veces más rápido que las implementaciones de referencia correspondientes en Python.

Los modelos lanzados incluyen Qwen3-TTS, PocketTTS, Vevo2, Chatterbox, MioTTS, OmniVoice, VoxCPM2, Qwen3-ASR, Seed-VC, MioCodec, Silero VAD y el Alineador Forzado Qwen3.
PocketTTS logra una mejora de velocidad de 3.68x en ejecuciones de 1-shot y genera audio a 48.40x la velocidad real para entradas de larga duración.
Vevo2 alcanza una mejora de velocidad de 5.03x en ejecuciones de 1-shot, mientras que Qwen3-TTS muestra una mejora de hasta 3.06x en la generación de larga duración.
El marco permite un entorno de ejecución compartido, gestión de sesiones y flujos de trabajo CLI, permitiendo pipelines complejos como el redoblaje en el mismo idioma mediante un solo comando.

Este enfoque unificado en C++ elimina la necesidad de entornos Python separados para cada modelo, ofreciendo tiempos de inferencia significativamente más rápidos y una implementación simplificada para tareas de procesamiento de audio.