llama.cpp 项目发布了版本 b9876,解决了在使用张量并行与 CPU 卸载的混合专家 (MoE) 专家时出现的严重崩溃问题。
- 修复了在 MoE 模型预热期间由 ggml-backend-meta.cpp 中的 GGML_ASSERT 失败导致的中止。
- 解决了 MoE 路由器输出的镜像非连续张量触发断言错误的问题。
- 将 split-state 查找移至连续性断言之上,以允许在 get_tensor 和 set_tensor 操作中使用镜像情况。
- 为 macOS (Apple Silicon 和 Intel)、Linux、Android、Windows 和 openEuler 提供 CPU、Vulkan、ROCm、CUDA、OpenVINO、SYCL 和 HIP 后端的二进制文件。
此修复使用户能够成功运行具有张量并行和 CPU 卸载专家的 MoE 模型,而不会遇到后端断言失败。