يقدم الباحثون BaseRT، وهو وقت تشغيل للاستدلال باستخدام Metal الأصلي للنماذج اللغوية الكبيرة على شرائح Apple Silicon، يحقق أعلى معدل استدلال مُبلغ عنه حتى الآن. ومن خلال الاستفادة من دمج النوى الخاص بالشريحة والتحسين الواعي للذاكرة الموحدة، يتغلب على الحمل الزائد الموجود في الأطر الحالية مثل llama.cpp وMLX.
- يدعم ثمانية تنسيقات تكميم (من Q2 إلى FP16) عبر جميع أجهزة سلسلة Apple M.
- يحقق معدل فك تشفير أعلى بنسبة تصل إلى 1.56 مرة من llama.cpp وأعلى بنسبة 1.35 مرة من MLX على أجهزة M3 وM4 Pro.
- يُظهر هوامش أكبر بكثير لمرحلة prefill في نماذج mixture-of-experts.
- يحافظ على معدل أداء أفضل في فئته بشكل متسق للنماذج التي تتراوح بين أقل من مليار و30 مليار معلمة.
يجادل المؤلفون بأن أوقات التشغيل المحلية المُحسّنة للأداء حاسمة لنموذج الاستدلال الطرفي الناشئ، مما يساعد في معالجة متطلبات الخصوصية، وقيود زمن الوصول، والضغوط المتعلقة بتكاليف السحابة.