github llama.cpp · 1 小时前 · inference

llama.cpp b9862 发布：CUDA 优化和多平台二进制文件

译自 English → 中文

llama.cpp 项目发布了版本 b9862，包含对 gated_delta_net 操作的性能优化，并提供适用于 macOS、Linux、Windows、Android 和 openEuler 的预构建二进制文件。

通过检测 gated_delta_net -> view -> cpy 模式，移除 gated_delta_net 后冗余的 CUDA 副本。
允许 CUDA GDN 内核将状态快照直接写入循环缓存，跳过中间尾部写入。
在此版本中禁用 macOS Apple Silicon 的 KleidiAI 支持。
提供适用于 Ubuntu x64/arm64/s390x 的二进制文件，支持 CPU、Vulkan、ROCm 7.2、OpenVINO 和 SYCL 后端。
包含适用于 CPU、OpenCL Adreno、CUDA 12/13、Vulkan、OpenVINO、SYCL 和 HIP 的 Windows 构建版本。

此更新在保持与各种操作系统和硬件加速器广泛兼容性的同时，提高了受支持 GPU 架构上的推理效率。

重要性 1/3 可信度 2/3 llama.cpp Inference efficiency