إصدار llama.cpp b9856 مع تقييد CUDA + PDL لـ FA

أصدر مشروع llama.cpp الإصدار b9856، الذي يُدخل الاستخدام المتسق لكلمة `restrict` المفتاحية وPDL لـ Flash Attention في CUDA. يرافق هذا التحديث ثنائيات جاهزة للتشغيل لأنظمة macOS وLinux وAndroid وWindows وopenEuler عبر مختلف الخلفيات العتادية.

تتوفر إصدارات macOS Apple Silicon (arm64)، بينما يبقى دعم KleidiAI معطلاً.
تغطي الثنائيات الخاصة بـ Linux وحدات المعالجة المركزية (x64، arm64، s390x) وVulkan وROCm 7.2 وOpenVINO وSYCL FP32/FP16.
تتضمن إصدارات Windows وحدات المعالجة المركزية وOpenCL Adreno وCUDA 12.4/13.3 وVulkan وOpenVINO وSYCL وHIP.
كما تم توفير ثنائيات Android arm64 (CPU) وUI لهذا الإصدار.