يُطلق إصدار llama.cpp ب9788 دعمًا لتوازي المصفوفات عبر العلم --split-mode tensor في الخلفية SYCL. يتيح هذا التنفيذ التواصل بين GPUين بإضافة دوال comm_init وcomm_free وcomm_allreduce_tensor إلى meta-backend. بالنسبة لجهازين، يستخدم استراتيجية ring all-reduce التي تتناوب بين نسخ FP32 المباشر للصفائف الصغيرة وضغط BF16 للصفائف الأكبر. يتجنب الكود استخدام OneCCL بسبب قيوده على جهاز واحد لكل عملية، ويعتمد بدلاً من ذلك على مخازن مؤقتة دائمة للحفاظ على ثوابت مجموعة SYCL. أظهرت اختبارات الأداء على GPUين Intel Arc Pro B70 تسريعات كبيرة مقارنة بوضع الطبقات لنماذج Llama-3.3-70B وQwen3-Coder-Next-80B-A3B. يتضمن التحديث ثنائيات جديدة لأنظمة macOS وLinux وWindows وAndroid وopenEuler عبر أهداف CPU وCUDA وROCm وVulkan وSYCL.