audio.cpp adiciona suporte nativo em C++ para VibeVoice 1.5B em inferência de áudio local

O autor do runtime audio.cpp adicionou suporte ao modelo VibeVoice 1.5B, permitindo a geração de texto-para-fala de múltiplos falantes e formato longo em um ambiente nativo C++/ggml.

Os benchmarks em uma RTX 5090 mostram que o VibeVoice gera 93.6 minutos de áudio em 22.95 minutos (4.08x tempo real).
Isso representa uma aceleração de 2.86x em comparação com uma linha de base em Python sem quantização.

O runtime visa fornecer sessões reutilizáveis, comportamento estável de memória e otimização focada em CUDA para inferência local.

Esta adição torna os modelos de áudio de formato longo mais práticos para uso local, evitando a sobrecarga de configuração do Python e oferecendo desempenho otimizado para tarefas de diálogo e narração.