أصدر مشروع llama.cpp الإصدار b9876، والذي يعالج تعطلًا حرجًا عند استخدام توازي المصفوفات مع خبراء Mixture of Experts (MoE) المُحمَّلة على وحدة المعالجة المركزية.

  • إصلاح توقف أثناء التسخين في نماذج MoE ناتج عن فشل GGML_ASSERT في ggml-backend-meta.cpp.
  • حل المشكلة حيث تسبب المصفوفات غير المتصلة المنعكسة لإخراج موجه MoE في حدوث خطأ assertion.
  • نقل بحث split-state فوق assertion الاتصال للسماح بالحالة المنعكسة في عمليات get_tensor و set_tensor.
  • توفير ثنائيات لأنظمة macOS (Apple Silicon و Intel) و Linux و Android و Windows و openEuler عبر backends CPU و Vulkan و ROCm و CUDA و OpenVINO و SYCL و HIP.

يتيح هذا الإصلاح للمستخدمين تشغيل نماذج MoE بنجاح مع توازي المصفوفات وخبراء المُحمَّلة على وحدة المعالجة المركزية دون مواجهة أخطاء assertion في الـ backend.