إصدار llama.cpp b9857: إعادة هيكلة Flash Attention وثنائيات جديدة

يُقدم إصدار llama.cpp b9857 إعادة هيكلة شاملة لتنفيذ Hexagon Flash Attention، مع التركيز على التحسينات وتحسينات الدقة. يتضمن هذا التحديث تغييرات كبيرة في وحدات hex-mm وhex-fa، مثل دمج مهام الكمّنة في خيوط matmul الرئيسية، والدمج مع عمليات ADD، وتحسين معالجة الأقنعة.

تشمل تحسينات Hexagon Flash Attention (hex-fa) تحليل ukernels، ونقل حساب معاملات النواة إلى المضيف، وإضافة دعم لـ FA_SELECT وSinks.
تتضمن التحسينات في الأداء تحديث عتبات الهروب Hvx لاستعادة خسائر الإنتاجية، وتحسين تخزين أقنعة DMA، واستخدام التحميلات المحاذاة وفهارس uint32_t.
تشمل تحسينات الدقة العددية الاحتفاظ بمجمعات softmax في fp32، واستبدال vec_exp_f32 بـ vec_exp2_f16، وتجنب تجاوزات التحويل بعدم استخدام -inf لتهيئة الأقنعة.
يوفر الإصدار ثنائيات لأنظمة macOS (Apple Silicon وIntel)، وLinux (CPU، Vulkan، ROCm، OpenVINO، SYCL)، وAndroid، وWindows (CPU، CUDA 12/13، Vulkan، OpenCL، HIP، OpenVINO، SYCL)، وopenEuler.

يحسّن هذا التحديث أداء الاستدلال على معالجات Hexagon DSPs ويوسع دعم الأجهزة عبر منصات ومسرعات متعددة لمستخدمي llama.cpp.