llama.cpp b9828 リリース: OpenCL Flash Attention の改善と新しいバイナリ

llama.cpp b9828 リリースは、f16 および f32 精度の Flash Attention カーネルを再構築するなど、OpenCL の大幅な強化をもたらしました。このアップデートには、新しいプレフィルプリパスカーネルと q4_0 および q8_0 量子化形式のサポートが含まれます。

f16 および f32 用の FA カーネルを再構築し、最適化されたタイルパディングおよびマスキングロジックを採用。
q4_0 および q8_0 量子化用の FA カーネルを追加し、デ量子化カーネルと SOA テンソルサポートを含める。
オーライド機能付きの FA タイルチューニングテーブルを導入し、-cl-finite-math-only に対する無限大処理を修正。
macOS (Apple Silicon/Intel)、Linux (CPU/Vulkan/ROCm/OpenVINO/SYCL)、Windows (CPU/CUDA/Vulkan/HIP/OpenVINO/SYCL)、Android、openEuler 用のビルド済みバイナリを提供。

このリリースにより、メモリアクセスパターンを最適化し、追加の量子化タイプをサポートすることで、OpenCL 対応ハードウェアでのより効率的な推論が可能になります。