إصدار llama.cpp b9828: تحسينات في Flash Attention عبر OpenCL وإصدارات جديدة

يُقدم إصدار llama.cpp b9828 تحسينات كبيرة في OpenCL، وتحديداً بإعادة صياغة نوى Flash Attention لدقة f16 وf32. يتضمن هذا التحديث نوى prefill prepass جديدة ودعمًا لتنسيقات الكمّية q4_0 وq8_0.

إعادة صياغة نواة FA لـ f16 وf32 مع تحسينات في حشو البلاطة (tile padding) ومنطق القناع.
إضافة نوى FA للكمّية q4_0 وq8_0، بما في ذلك نوى فك الكمّية ودعم مصفوفات SOA.
إدخال جدول ضبط بلاطات FA مع إمكانيات التجاوز وإصلاح التعامل مع اللانهاية لـ -cl-finite-math-only.
توفير ثنائيات جاهزة للبناء لأنظمة macOS (Apple Silicon/Intel)، وLinux (CPU/Vulkan/ROCm/OpenVINO/SYCL)، وWindows (CPU/CUDA/Vulkan/HIP/OpenVINO/SYCL)، وAndroid، وopenEuler.

يُمكّن هذا الإصدار استنتاجًا أكثر كفاءة على الأجهزة المتوافقة مع OpenCL من خلال تحسين أنماط الوصول للذاكرة ودعم أنواع كمّية إضافية.