llama.cpp 项目发布了 b9851 版本,其中包括对 CUDA 的修复,以防止在 flash_attn_mask_to_KV_max 内核中出现整数截断和溢出错误。此更新解决了与指定内核中的 KQ mask 步幅相关的问题。
- macOS Apple Silicon (arm64) 二进制文件可用,但 KleidiAI 支持已禁用。
- Linux 构建涵盖 Ubuntu x64 和 arm64 的 CPU、Vulkan、ROCm 7.2、OpenVINO 和 SYCL FP32/FP16。
- Android arm64 (CPU) 二进制文件为移动设备提供。
- Windows 发布版包括 CPU、OpenCL Adreno、CUDA 12/13、Vulkan、OpenVINO、SYCL 和 HIP 变体。
- openEuler 构建列出了 x86 和 aarch64 架构,部分配置已禁用。
- 独立 UI 二进制文件也包含在发布资产中。
此版本通过纠正计算错误确保 CUDA 用户的稳定性,并在主要操作系统和硬件加速器上提供全面的预构建二进制文件。