إصدار llama.cpp b9828: تحسينات في Flash Attention عبر OpenCL وإصدارات جديدة
يُقدم إصدار llama.cpp b9828 تحسينات كبيرة في OpenCL، وتحديداً بإعادة صياغة نوى Flash Attention لدقة f16 وf32. يتضمن هذا التحديث نوى prefill prepass جديدة ودعمًا لتنسيقات الكمّية q4_0 وq8_0.