llama.cpp 项目已发布 b9855 版本,在 ggml-cpu 后端中引入了针对 nvfp4 点积的 AVX2 优化,使用 UE4M3 查找表 (LUT)。

  • macOS Apple Silicon 和 Intel 构建版本现已提供,同时附带 iOS XCFramework。
  • Linux 二进制文件支持通过 CPU、Vulkan、ROCm 7.2、OpenVINO 和 SYCL (FP32/FP16) 的 Ubuntu x64、arm64 和 s390x 架构。
  • Windows 发行版包含 CPU、OpenCL Adreno、CUDA 12.4 和 13.3、Vulkan、OpenVINO、SYCL 和 HIP 后端。
  • 提供 Android arm64 CPU 二进制文件以支持移动端部署。
  • 此版本中禁用了 macOS Apple Silicon 上的 KleidiAI 支持。

此次更新为用户针对特定硬件配置提供了优化的推理能力,并扩大了主要操作系统上支持的加速器范围。