أصدر مشروع llama.cpp الإصدار b9856، الذي يُدخل الاستخدام المتسق لكلمة `restrict` المفتاحية وPDL لـ Flash Attention في CUDA. يرافق هذا التحديث ثنائيات جاهزة للتشغيل لأنظمة macOS وLinux وAndroid وWindows وopenEuler عبر مختلف الخلفيات العتادية.
- تتوفر إصدارات macOS Apple Silicon (arm64)، بينما يبقى دعم KleidiAI معطلاً.
- تغطي الثنائيات الخاصة بـ Linux وحدات المعالجة المركزية (x64، arm64، s390x) وVulkan وROCm 7.2 وOpenVINO وSYCL FP32/FP16.
- تتضمن إصدارات Windows وحدات المعالجة المركزية وOpenCL Adreno وCUDA 12.4/13.3 وVulkan وOpenVINO وSYCL وHIP.
- كما تم توفير ثنائيات Android arm64 (CPU) وUI لهذا الإصدار.