O autor do runtime audio.cpp adicionou suporte ao modelo VibeVoice 1.5B, permitindo a geração de texto-para-fala de múltiplos falantes e formato longo em um ambiente nativo C++/ggml.

  • Os benchmarks em uma RTX 5090 mostram que o VibeVoice gera 93.6 minutos de áudio em 22.95 minutos (4.08x tempo real).
  • Isso representa uma aceleração de 2.86x em comparação com uma linha de base em Python sem quantização.

O runtime visa fornecer sessões reutilizáveis, comportamento estável de memória e otimização focada em CUDA para inferência local.

Esta adição torna os modelos de áudio de formato longo mais práticos para uso local, evitando a sobrecarga de configuração do Python e oferecendo desempenho otimizado para tarefas de diálogo e narração.