Rilis llama.cpp b9827 menambahkan optimasi salinan async 2D CUDA

Rilis llama.cpp b9827 memperkenalkan optimasi kinerja untuk CUDA dengan menambahkan jalur cepat cudaMemcpy2DAsync ke fungsi ggml_cuda_cpy. Perubahan ini mempercepat salinan strided tipe dan bentuk yang sama di mana tensor tidak sepenuhnya kontigu tetapi setiap barisnya kontigu, menggantikan kernel salinan skalar elemen-demi-elemen yang lebih lambat.

Mengimplementasikan jalur cepat untuk salinan blok pitched 2D di CUDA guna meningkatkan kinerja pada tensor non-kontigu.
Memperbarui snapshot rekursif GDN saat menggunakan -np 4 dengan mengatasi masalah pemisahan slot rollback.
Menambahkan pengujian baru untuk memvalidasi jalur salinan strided yang dioptimalkan.
Mengembalikan status tidak didukung untuk salinan strided di OpenVINO karena kegagalan pengujian baru.
Menonaktifkan build macOS Apple Silicon (arm64, KleidiAI diaktifkan) untuk rilis ini.

Pembaruan ini meningkatkan efisiensi inferensi pada perangkat CUDA dengan mengurangi overhead selama operasi salinan tensor tertentu dan menyelesaikan masalah stabilitas dalam pemrosesan rekursif GDN.