يُقدم إصدار llama.cpp b9828 تحسينات كبيرة في OpenCL، وتحديداً بإعادة صياغة نوى Flash Attention لدقة f16 وf32. يتضمن هذا التحديث نوى prefill prepass جديدة ودعمًا لتنسيقات الكمّية q4_0 وq8_0.
- إعادة صياغة نواة FA لـ f16 وf32 مع تحسينات في حشو البلاطة (tile padding) ومنطق القناع.
- إضافة نوى FA للكمّية q4_0 وq8_0، بما في ذلك نوى فك الكمّية ودعم مصفوفات SOA.
- إدخال جدول ضبط بلاطات FA مع إمكانيات التجاوز وإصلاح التعامل مع اللانهاية لـ -cl-finite-math-only.
- توفير ثنائيات جاهزة للبناء لأنظمة macOS (Apple Silicon/Intel)، وLinux (CPU/Vulkan/ROCm/OpenVINO/SYCL)، وWindows (CPU/CUDA/Vulkan/HIP/OpenVINO/SYCL)، وAndroid، وopenEuler.
يُمكّن هذا الإصدار استنتاجًا أكثر كفاءة على الأجهزة المتوافقة مع OpenCL من خلال تحسين أنماط الوصول للذاكرة ودعم أنواع كمّية إضافية.