إصدار llama.cpp b9827 يضيف تحسين نسخ CUDA المتزامن ثنائي الأبعاد

يُطلق إصدار llama.cpp b9827 تحسينًا للأداء في CUDA من خلال إضافة مسار سريع لـ cudaMemcpy2DAsync إلى دالة ggml_cuda_cpy. يُسرّع هذا التغيير عمليات النسخ المتدرجة (strided) التي تكون فيها الأنواع والأشكال متطابقة، حيث لا تكون الموترات متصلة بالكامل ولكن كل صف متصل، مما يحل محل نوى نسخ العناصر القياسية الأبطأ.

يطبق مسارًا سريعًا لنسخ كتل CUDA ذات المساحة المائلة لتحسين الأداء على الموترات غير المتصلة.
يُصلح تحديثات لقطة GDN المتكررة عند استخدام -np 4 من خلال معالجة مشكلات فصل فتحات التراجع.
يضيف اختبارات جديدة للتحقق من صحة مسار النسخ المتدرج المُحسّن.
يعيد حالة عدم الدعم لعمليات النسخ المتدرجة في OpenVINO بسبب فشل الاختبارات الجديدة.
يُعطّل بناءات macOS Apple Silicon (arm64، مع تفعيل KleidiAI) لهذا الإصدار.

يعزز هذا التحديث كفاءة الاستدلال على أجهزة CUDA من خلال تقليل الحمل أثناء عمليات نسخ الموترات المحددة ويُصلح مشكلات الاستقرار في المعالجة المتكررة لـ GDN.