Penulis runtime audio.cpp telah menambahkan dukungan untuk model VibeVoice 1.5B, memungkinkan generasi teks-ke-suara multi-pembicara panjang dalam lingkungan C++/ggml asli.
- Benchmark pada RTX 5090 menunjukkan VibeVoice menghasilkan 93,6 menit audio dalam 22,95 menit (4,08x waktu nyata).
- Ini mewakili percepatan 2,86x dibandingkan baseline Python tanpa kuantisasi.
- Runtime ini bertujuan untuk menyediakan sesi yang dapat digunakan kembali, perilaku memori yang stabil, dan optimasi berfokus CUDA untuk inferensi lokal.
Penambahan ini membuat model audio panjang lebih praktis untuk penggunaan lokal dengan menghindari overhead setup Python dan menawarkan kinerja yang dioptimalkan untuk tugas dialog dan narasi.