L'auteur du runtime audio.cpp a ajouté le support du modèle VibeVoice 1.5B, permettant la génération de parole longue durée multi-intervenants dans un environnement C++/ggml natif.

  • Les benchmarks sur une RTX 5090 montrent que VibeVoice génère 93,6 minutes d'audio en 22,95 minutes (4,08x temps réel).
  • Cela représente une accélération de 2,86x par rapport à une baseline Python sans quantification.
  • Le runtime vise à fournir des sessions réutilisables, un comportement mémoire stable et une optimisation centrée sur CUDA pour l'inférence locale.

Cette ajout rend les modèles audio longue durée plus pratiques pour une utilisation locale en évitant la surcharge de configuration Python et en offrant des performances optimisées pour les tâches de dialogue et de narration.