शोधकर्ताओं ने BaseRT पेश किया, जो एप्पल सिलिकॉन पर बड़े भाषा मॉडलों के लिए एक नेटिव मेटल इनफरेंस रनटाइम है जो आज तक की उच्चतम रिपोर्ट किए गए इनफरेंस थ्रूपुट को प्राप्त करता है। चिप-विशिष्ट कर्नेल फ्यूजन और यूनिफाइड मेमोरी-अवेयर ऑप्टिमाइजेशन का उपयोग करके, यह llama.cpp और MLX जैसे मौजूदा फ्रेमवर्क्स में पाए जाने वाले ओवरहेड को दूर करता है।

  • सभी एप्पल M-सीरीज डिवाइसों पर आठ क्वांटीज़ेशन फॉर्मेट (Q2 से FP16) का समर्थन करता है।
  • M3 और M4 Pro डिवाइसों पर llama.cpp की तुलना में 1.56x तक अधिक डिकोड थ्रूपुट और MLX की तुलना में 1.35x अधिक प्राप्त करता है।
  • मिक्स्चर-ऑफ-एक्सपर्ट्स मॉडल्स के लिए प्रीफिल में काफी बड़े मार्जिन दिखाता है।
  • उप-1B से 30B पैरामीटर तक के मॉडल्स के लिए स्थिर शीर्ष स्तरीय थ्रूपुट बनाए रखता है।

लेखकों का तर्क है कि प्रदर्शन-अनुकूलित लोकल रनटाइम उभरते हुए एज इनफरेंस पैराडाइम के लिए महत्वपूर्ण हैं, जो गोपनीयता आवश्यकताओं, लेटेंसी बाधाओं और क्लाउड लागत दबाव को संबोधित करने में मदद करते हैं।