llama.cpp b9850 版本引入了特定的模型支持更新,包括为 Qwen3Next 注册 t_layer_inp 张量、修复层处理循环中的输入赋值问题,以及解决 qwen-coder-next 的 DFLASH 问题。它还添加了用于 Qwen3 模型注意力归一化的张量。

  • macOS Apple Silicon (arm64) 二进制文件已提供,但 KleidiAI 支持已禁用。
  • Linux 构建涵盖 Ubuntu x64 和 arm64 CPU、Vulkan、ROCm 7.2、OpenVINO 以及 SYCL FP32/FP16 变体。
  • 为移动设备提供了 Android arm64 CPU 二进制文件。
  • Windows 发布版包括 CPU、OpenCL Adreno、CUDA 12.4/13.3、Vulkan、OpenVINO、SYCL 和 HIP 后端。
  • 包含支持 ACL Graph 的 x86 和 aarch64 架构的 openEuler 构建。

此更新为 Qwen3 系列模型提供了更正的模型处理,并在多个操作系统和 GPU 架构上扩展了硬件加速选项。