CUDAのrestrictとPDLによるFA対応を含むllama.cpp b9856リリース

llama.cppプロジェクトはバージョンb9856をリリースし、CUDAにおけるFlash Attentionで`restrict`キーワードとPDLの一貫した使用を導入しました。このアップデートには、macOS、Linux、Android、Windows、openEuler向けの各種ハードウェアバックエンド用のビルド済みバイナリが含まれています。

macOS Apple Silicon (arm64) のビルドが利用可能ですが、KleidiAIのサポートは無効のままです。
LinuxバイナリはCPU (x64, arm64, s390x)、Vulkan、ROCm 7.2、OpenVINO、SYCL FP32/FP16に対応しています。
WindowsリリースにはCPU、OpenCL Adreno、CUDA 12.4/13.3、Vulkan、OpenVINO、SYCL、HIPが含まれています。
このリリースではAndroid arm64 (CPU) およびUIバイナリも提供されています。