github llama.cpp · 2 小时前 · inference

llama.cpp b9876 修复了 MoE 模型的张量并行 + -ncmoe 崩溃

译自 English → 中文

llama.cpp 项目发布了版本 b9876，解决了在使用张量并行与 CPU 卸载的混合专家 (MoE) 专家时出现的严重崩溃问题。

修复了在 MoE 模型预热期间由 ggml-backend-meta.cpp 中的 GGML_ASSERT 失败导致的中止。
解决了 MoE 路由器输出的镜像非连续张量触发断言错误的问题。
将 split-state 查找移至连续性断言之上，以允许在 get_tensor 和 set_tensor 操作中使用镜像情况。
为 macOS (Apple Silicon 和 Intel)、Linux、Android、Windows 和 openEuler 提供 CPU、Vulkan、ROCm、CUDA、OpenVINO、SYCL 和 HIP 后端的二进制文件。

此修复使用户能够成功运行具有张量并行和 CPU 卸载专家的 MoE 模型，而不会遇到后端断言失败。

重要性 1/3 可信度 1/3 llama.cpp Hugging Face Inference efficiency