llama.cpp 项目发布了 b9844 版本,该版本为 NVFP4 量化格式引入了 ggml-webgpu 支持。此次更新还提供了适用于 macOS、iOS、Linux、Android、Windows 和 openEuler 的预构建二进制文件,覆盖多种硬件后端。
- 通过拉取请求 #25143 向 ggml-webgpu 添加了 NVFP4 支持。
- 在此版本中禁用了 macOS Apple Silicon 和 openEuler 的 KleidiAI 构建。
- 提供了适用于 Ubuntu(CPU、Vulkan、ROCm 7.2、OpenVINO、SYCL FP32/FP16)、Windows(CPU、CUDA 12/13、Vulkan、OpenVINO、SYCL、HIP)和 Android arm64 的二进制文件。
- 发布了 macOS Apple Silicon(arm64 和 x64)二进制文件以及 iOS XCFramework。
- 包含了用于通用用途的 UI 二进制文件。
此版本使开发者能够在 WebGPU 设备上利用 NVFP4 量化,并为广泛的操作系统和 GPU 架构提供更新的预构建可执行文件。