llama.cpp b9827 版本通过向 ggml_cuda_cpy 函数添加 cudaMemcpy2DAsync 快速路径,引入了针对 CUDA 的性能优化。此更改加速了相同类型、相同形状的步长复制操作,其中张量不完全连续但每行是连续的,从而替换了较慢的元素级标量复制内核。

  • 为 CUDA 中的 2D 间距块复制实现了快速路径,以改善非连续张量的性能。
  • 通过使用 -np 4 时解决了回滚槽分离问题,修复了 GDN 循环快照更新。
  • 添加了新测试以验证优化的步长复制路径。
  • 由于新测试失败,对 OpenVINO 中的步长复制返回不支持状态。
  • 禁用了此版本的 macOS Apple Silicon (arm64, KleidiAI 启用) 构建。

此更新通过减少特定张量复制操作期间的开销来提高 CUDA 设备上的推理效率,并解决了 GDN 循环处理中的稳定性问题。