La version b9827 de llama.cpp ajoute une optimisation de copie asynchrone 2D CUDA

La version b9827 de llama.cpp introduit une optimisation de performance pour CUDA en ajoutant un chemin rapide cudaMemcpy2DAsync à la fonction ggml_cuda_cpy. Ce changement accélère les copies échelonnées de même type et même forme où les tenseurs ne sont pas entièrement contigus mais chaque ligne l'est, remplaçant des noyaux de copie scalaire élément par élément plus lents.

Implémente un chemin rapide pour les copies de blocs en pente 2D dans CUDA afin d'améliorer les performances sur les tenseurs non contigus.
Corrige les mises à jour de snapshot récurrent GDN lors de l'utilisation de -np 4 en résolvant les problèmes de séparation des emplacements de rollback.
Ajoute de nouveaux tests pour valider le chemin de copie échelonné optimisé.
Retourne un statut non pris en charge pour les copies échelonnées dans OpenVINO en raison d'échecs aux nouveaux tests.
Désactive les builds macOS Apple Silicon (arm64, KleidiAI activé) pour cette version.

Cette mise à jour améliore l'efficacité de l'inférence sur les appareils CUDA en réduisant la surcharge lors d'opérations de copie de tenseurs spécifiques et résout des problèmes de stabilité dans le traitement récurrent GDN.