يُقدم إصدار llama.cpp b9857 إعادة هيكلة شاملة لتنفيذ Hexagon Flash Attention، مع التركيز على التحسينات وتحسينات الدقة. يتضمن هذا التحديث تغييرات كبيرة في وحدات hex-mm وhex-fa، مثل دمج مهام الكمّنة في خيوط matmul الرئيسية، والدمج مع عمليات ADD، وتحسين معالجة الأقنعة.

  • تشمل تحسينات Hexagon Flash Attention (hex-fa) تحليل ukernels، ونقل حساب معاملات النواة إلى المضيف، وإضافة دعم لـ FA_SELECT وSinks.
  • تتضمن التحسينات في الأداء تحديث عتبات الهروب Hvx لاستعادة خسائر الإنتاجية، وتحسين تخزين أقنعة DMA، واستخدام التحميلات المحاذاة وفهارس uint32_t.
  • تشمل تحسينات الدقة العددية الاحتفاظ بمجمعات softmax في fp32، واستبدال vec_exp_f32 بـ vec_exp2_f16، وتجنب تجاوزات التحويل بعدم استخدام -inf لتهيئة الأقنعة.
  • يوفر الإصدار ثنائيات لأنظمة macOS (Apple Silicon وIntel)، وLinux (CPU، Vulkan، ROCm، OpenVINO، SYCL)، وAndroid، وWindows (CPU، CUDA 12/13، Vulkan، OpenCL، HIP، OpenVINO، SYCL)، وopenEuler.

يحسّن هذا التحديث أداء الاستدلال على معالجات Hexagon DSPs ويوسع دعم الأجهزة عبر منصات ومسرعات متعددة لمستخدمي llama.cpp.