قام مطوّر وقت تشغيل audio.cpp بإضافة دعم لنموذج VibeVoice 1.5B، مما يتيح توليد كلام طويل متعدد المتحدثين في بيئة C++/ggml أصلية.

  • أظهرت المقاييس على RTX 5090 أن VibeVoice يولّد 93.6 دقيقة من الصوت في 22.95 دقيقة (4.08x سرعة الزمن الحقيقي).
  • يمثل هذا تسارعًا بنسبة 2.86x مقارنة بخط الأساس باستخدام Python بدون تكميم.
  • يهدف وقت التشغيل إلى توفير جلسات قابلة لإعادة الاستخدام، وسلوك ذاكرة مستقر، وتحسينات موجهة نحو CUDA للاستدلال المحلي.

يجعل هذا الإضافة نماذج الصوت طويلة المدى أكثر عملية للاستخدام المحلي من خلال تجنب عبء إعداد Python وتقديم أداء محسّن لمهام الحوار والسرد.