llama.cpp 项目发布了 b9789 版本,其中包括对使用多令牌预测(multi-token prediction)量化混合专家(MoE)模型的关键修复。此更新解决了拉取请求 #24986 中识别的问题,以确保正确处理这些特定的模型架构。该版本提供了适用于 macOS Apple Silicon 和 Intel 的预构建二进制文件,以及一个 iOS XCFramework。Linux 用户可以下载适用于 Ubuntu 的构建版本,支持 CPU、Vulkan、ROCm 7.2、OpenVINO 和 SYCL 后端。Windows 支持包括 CPU、CUDA 12.4 和 13.3、Vulkan、OpenVINO、SYCL 和 HIP 变体。Android arm64 和 openEuler 等其他平台也通过特定的硬件配置得到支持。