Rilis llama.cpp b9828 memperkenalkan peningkatan signifikan pada OpenCL, khususnya dengan menyusun ulang kernel Flash Attention untuk presisi f16 dan f32. Pembaruan ini mencakup kernel prefill prepass baru serta dukungan untuk format kuantisasi q4_0 dan q8_0.

  • Kernel FA yang disusun ulang untuk f16 dan f32 dengan logika padding tile dan masking yang dioptimalkan.
  • Ditambahkan kernel FA untuk kuantisasi q4_0 dan q8_0, termasuk kernel dequant dan dukungan tensor SOA.
  • Memperkenalkan tabel penyetelan tile FA dengan kemampuan override serta penanganan infinity yang diperbaiki untuk -cl-finite-math-only.
  • Menyediakan biner pra-dibangun untuk macOS (Apple Silicon/Intel), Linux (CPU/Vulkan/ROCm/OpenVINO/SYCL), Windows (CPU/CUDA/Vulkan/HIP/OpenVINO/SYCL), Android, dan openEuler.

Rilis ini memungkinkan inferensi yang lebih efisien pada perangkat keras kompatibel OpenCL dengan mengoptimalkan pola akses memori dan mendukung jenis kuantisasi tambahan.