github llama.cpp · 11 天前 · inference

ggml 通过分区展平优化 AMX

译自 English → 中文

ggml 项目通过将 n_batch * M 上的分区展平，优化了 AMX 性能，确保所有线程都参与量化。这一改进在 CPU 和 GPU 平台上的各种模型和硬件配置中，将速度提升了最高 1.47 倍，结果显示推理时间一致缩短。

重要性 2/3 可信度 2/3 llama.cpp API & product launches Inference efficiency Open weights