llama.cpp 项目已发布 b9855 版本,在 ggml-cpu 后端中引入了针对 nvfp4 点积的 AVX2 优化,使用 UE4M3 查找表 (LUT)。
- macOS Apple Silicon 和 Intel 构建版本现已提供,同时附带 iOS XCFramework。
- Linux 二进制文件支持通过 CPU、Vulkan、ROCm 7.2、OpenVINO 和 SYCL (FP32/FP16) 的 Ubuntu x64、arm64 和 s390x 架构。
- Windows 发行版包含 CPU、OpenCL Adreno、CUDA 12.4 和 13.3、Vulkan、OpenVINO、SYCL 和 HIP 后端。
- 提供 Android arm64 CPU 二进制文件以支持移动端部署。
- 此版本中禁用了 macOS Apple Silicon 上的 KleidiAI 支持。
此次更新为用户针对特定硬件配置提供了优化的推理能力,并扩大了主要操作系统上支持的加速器范围。