llama.cpp 项目发布了版本 b9862,包含对 gated_delta_net 操作的性能优化,并提供适用于 macOS、Linux、Windows、Android 和 openEuler 的预构建二进制文件。
- 通过检测 gated_delta_net -> view -> cpy 模式,移除 gated_delta_net 后冗余的 CUDA 副本。
- 允许 CUDA GDN 内核将状态快照直接写入循环缓存,跳过中间尾部写入。
- 在此版本中禁用 macOS Apple Silicon 的 KleidiAI 支持。
- 提供适用于 Ubuntu x64/arm64/s390x 的二进制文件,支持 CPU、Vulkan、ROCm 7.2、OpenVINO 和 SYCL 后端。
- 包含适用于 CPU、OpenCL Adreno、CUDA 12/13、Vulkan、OpenVINO、SYCL 和 HIP 的 Windows 构建版本。
此更新在保持与各种操作系统和硬件加速器广泛兼容性的同时,提高了受支持 GPU 架构上的推理效率。