O autor do runtime audio.cpp adicionou suporte ao modelo VibeVoice 1.5B, permitindo a geração de texto-para-fala de múltiplos falantes e formato longo em um ambiente nativo C++/ggml.
- Os benchmarks em uma RTX 5090 mostram que o VibeVoice gera 93.6 minutos de áudio em 22.95 minutos (4.08x tempo real).
- Isso representa uma aceleração de 2.86x em comparação com uma linha de base em Python sem quantização.
O runtime visa fornecer sessões reutilizáveis, comportamento estável de memória e otimização focada em CUDA para inferência local.
Esta adição torna os modelos de áudio de formato longo mais práticos para uso local, evitando a sobrecarga de configuração do Python e oferecendo desempenho otimizado para tarefas de diálogo e narração.