llama.cpp b9827 リリースで CUDA 2D 非同期コピーの最適化が追加

llama.cpp b9827 リリースは、ggml_cuda_cpy 関数に cudaMemcpy2DAsync の高速パスを追加することで、CUDA のパフォーマンス最適化を導入します。この変更により、テンソルが完全に連続していないものの各行が連続している場合の、同じ型・同じ形状のストライド付きコピーを高速化し、従来の要素ごとのスカラーコピーカーネルに代わります。

非連続なテンソルに対するパフォーマンス向上のため、CUDA の 2D ピッチ付きブロックコピーの高速パスを実装。
ロールバックスロットの分離問題を解決し、-np 4 を使用した際の GDN リカレントスナップショット更新を修正。
最適化されたストライドコピーパスを検証するための新テストを追加。
新しいテストに失敗したため、OpenVINO におけるストライドコピーは非対応として返すように変更。
今回のリリースでは macOS Apple Silicon (arm64, KleidiAI 有効) のビルドを無効化。

このアップデートにより、特定のテンソルコピー操作時のオーバーヘッドを削減して CUDA デバイスでの推論効率を向上させ、GDN リカレント処理における安定性問題も解消されました。