ggml 项目通过将 n_batch * M 上的分区展平,优化了 AMX 性能,确保所有线程都参与量化。这一改进在 CPU 和 GPU 平台上的各种模型和硬件配置中,将速度提升了最高 1.47 倍,结果显示推理时间一致缩短。