audio.cpp रनटाइम के लेखक ने VibeVoice 1.5B मॉडल के लिए समर्थन जोड़ा है, जिससे नेटिव C++/ggml वातावरण में लंबे-फॉर्म बहु-वक्ता टेक्स्ट-टू-स्पीच जनरेशन संभव हुआ है।

  • RTX 5090 पर बेंचमार्क दिखाते हैं कि VibeVoice 22.95 मिनट में 93.6 मिनट का ऑडियो जेनरेट करता है (4.08x रियल-टाइम)।
  • यह क्वांटीज़ेशन के बिना एक Python बेलाइन की तुलना में 2.86x गति वृद्धि दर्शाता है।

रनटाइम स्थानीय इनफरेंस के लिए पुनः उपयोग योग्य सत्र, स्थिर मेमोरी व्यवहार और CUDA-केंद्रित अनुकूलन प्रदान करने का लक्ष्य रखता है।

यह जोड़ Python सेटअप ओवरहेड से बचकर और संवाद व कथा कार्य के लिए अनुकूलित प्रदर्शन प्रदान करके स्थानीय उपयोग के लिए लंबे-फॉर्म ऑडियो मॉडलों को अधिक व्यावहारिक बनाता है।