github llama.cpp · 3 小时前 · inference

llama.cpp b9851 版本修复了 CUDA 整数截断问题并提供二进制文件

译自 English → 中文

llama.cpp 项目发布了 b9851 版本，其中包括对 CUDA 的修复，以防止在 flash_attn_mask_to_KV_max 内核中出现整数截断和溢出错误。此更新解决了与指定内核中的 KQ mask 步幅相关的问题。

macOS Apple Silicon (arm64) 二进制文件可用，但 KleidiAI 支持已禁用。
Linux 构建涵盖 Ubuntu x64 和 arm64 的 CPU、Vulkan、ROCm 7.2、OpenVINO 和 SYCL FP32/FP16。
Android arm64 (CPU) 二进制文件为移动设备提供。
Windows 发布版包括 CPU、OpenCL Adreno、CUDA 12/13、Vulkan、OpenVINO、SYCL 和 HIP 变体。
openEuler 构建列出了 x86 和 aarch64 架构，部分配置已禁用。
独立 UI 二进制文件也包含在发布资产中。

此版本通过纠正计算错误确保 CUDA 用户的稳定性，并在主要操作系统和硬件加速器上提供全面的预构建二进制文件。

重要性 0/3 可信度 2/3 llama.cpp Hugging Face