El autor del runtime audio.cpp ha añadido soporte para el modelo VibeVoice 1.5B, permitiendo la generación de texto a voz de múltiples hablantes y formato largo en un entorno nativo C++/ggml.
- Los benchmarks en una RTX 5090 muestran que VibeVoice genera 93.6 minutos de audio en 22.95 minutos (4.08x tiempo real).
- Esto representa una aceleración de 2.86x en comparación con una línea base en Python sin cuantización.
El runtime busca proporcionar sesiones reutilizables, comportamiento estable de memoria y optimización enfocada en CUDA para inferencia local.
Esta adición hace que los modelos de audio de formato largo sean más prácticos para uso local al evitar la sobrecarga de configuración de Python y ofrecer rendimiento optimizado para tareas de diálogo y narración.