إصدار llama.cpp b9820: تقليل عمليات المزامنة في CUDA وإصدارات جديدة

يُقدم إصدار llama.cpp b9820 تحسينات في الأداء من خلال إعادة إدخال عمليات مزامنة أقل أثناء الحساب المقسّم، ويستهدف بشكل خاص الخلفيات (backends) الخاصة بـ CUDA. يوفر هذا التحديث أيضاً ثنائيات جاهزة للبناء (pre-built binaries) لأنظمة macOS وLinux وWindows وAndroid وopenEuler عبر معالجات CPU وGPU ومسرعات الأجهزة المتخصصة.

يحسّن أداء CUDA عبر تقليل عمليات المزامنة بين الرموز (tokens).
يضيف قدرة نسخ من CPU إلى CUDA إلى الدالة ggml_backend_cuda_cpy_tensor_async().
يخفف متطلبات المزامنة بين نسخ المدخلات على الخلفيات المدعومة مثل CUDA.
يستبدل النسخ المتزامن بدالة نسخ غير متزامن (async) ويضيف حواجز ماكرو (macro guards) للإصدارات غير الخاصة بـ CUDA.
يعيد هيكلة كشف الخلفية (backend detection) في ggml-backend.cpp لتجنب تعارضات الربط (linking conflicts).
يصلح أخطاء التسلسل المتوازي في خلية hip backend بإضافة عمليات مزامنة لوحدة GPU واحدة في إعدادات متعددة GPUs.
يستثني hip/MUSA من تحسين تقسيم النسخ من CPU إلى GPU كإجراء وقائي.

يُمكّن هذا الإصدار استنتاجاً (inference) أسرع على أجهزة CUDA عبر عمليات غير متزامنة محسّنة مع الحفاظ على التوافق عبر مجموعة واسعة من أنظمة التشغيل وخلفيات الأجهزة.