github llama.cpp · 4 天前 · inference

llama.cpp b9827 版本添加了 CUDA 2D 异步复制优化

译自 English → 中文

llama.cpp b9827 版本通过向 ggml_cuda_cpy 函数添加 cudaMemcpy2DAsync 快速路径，引入了针对 CUDA 的性能优化。此更改加速了相同类型、相同形状的步长复制操作，其中张量不完全连续但每行是连续的，从而替换了较慢的元素级标量复制内核。

为 CUDA 中的 2D 间距块复制实现了快速路径，以改善非连续张量的性能。
通过使用 -np 4 时解决了回滚槽分离问题，修复了 GDN 循环快照更新。
添加了新测试以验证优化的步长复制路径。
由于新测试失败，对 OpenVINO 中的步长复制返回不支持状态。
禁用了此版本的 macOS Apple Silicon (arm64, KleidiAI 启用) 构建。

此更新通过减少特定张量复制操作期间的开销来提高 CUDA 设备上的推理效率，并解决了 GDN 循环处理中的稳定性问题。

重要性 1/3 可信度 2/3 llama.cpp Hugging Face Inference efficiency