github llama.cpp · 14 天前 · inference

Metal后端为concat算子添加f16和bf16支持

译自 English → 中文

llama.cpp中的Metal后端已扩展，以支持concat算子的f16和bf16张量类型，此外还保留现有的f32和i32支持。此更新包括专用的内核模板、更新的管道获取器以及改进的基于类型的内核分发，并得到了pi:llama.cpp/Qwen3.6-27B的帮助。

重要性 1/3 可信度 2/3 llama.cpp API & product launches Inference efficiency Open weights