llama.cpp b9789 版本修复 MoE 量化并提供多平台二进制文件

llama.cpp 项目发布了 b9789 版本，其中包括对使用多令牌预测（multi-token prediction）量化混合专家（MoE）模型的关键修复。此更新解决了拉取请求 #24986 中识别的问题，以确保正确处理这些特定的模型架构。该版本提供了适用于 macOS Apple Silicon 和 Intel 的预构建二进制文件，以及一个 iOS XCFramework。Linux 用户可以下载适用于 Ubuntu 的构建版本，支持 CPU、Vulkan、ROCm 7.2、OpenVINO 和 SYCL 后端。Windows 支持包括 CPU、CUDA 12.4 和 13.3、Vulkan、OpenVINO、SYCL 和 HIP 变体。Android arm64 和 openEuler 等其他平台也通过特定的硬件配置得到支持。