llama.cpp 项目已发布 b9856 版本,在 CUDA 中为 Flash Attention 引入了 `restrict` 关键字和 PDL 的一致使用。此次更新附带了适用于 macOS、Linux、Android、Windows 和 openEuler 的预编译二进制文件,覆盖多种硬件后端。

  • macOS Apple Silicon (arm64) 构建版本已提供,但 KleidiAI 支持仍处于禁用状态。
  • Linux 二进制文件涵盖 CPU (x64, arm64, s390x)、Vulkan、ROCm 7.2、OpenVINO 和 SYCL FP32/FP16。
  • Windows 发布版包括 CPU、OpenCL Adreno、CUDA 12.4/13.3、Vulkan、OpenVINO、SYCL 和 HIP。
  • 本次发布还提供了 Android arm64 (CPU) 和 UI 二进制文件。