llama.cppプロジェクトはバージョンb9856をリリースし、CUDAにおけるFlash Attentionで`restrict`キーワードとPDLの一貫した使用を導入しました。このアップデートには、macOS、Linux、Android、Windows、openEuler向けの各種ハードウェアバックエンド用のビルド済みバイナリが含まれています。

  • macOS Apple Silicon (arm64) のビルドが利用可能ですが、KleidiAIのサポートは無効のままです。
  • LinuxバイナリはCPU (x64, arm64, s390x)、Vulkan、ROCm 7.2、OpenVINO、SYCL FP32/FP16に対応しています。
  • WindowsリリースにはCPU、OpenCL Adreno、CUDA 12.4/13.3、Vulkan、OpenVINO、SYCL、HIPが含まれています。
  • このリリースではAndroid arm64 (CPU) およびUIバイナリも提供されています。