llama.cpp b9862 release : optimisation CUDA et binaires multi-plateformes

Le projet llama.cpp a publié la version b9862, offrant une optimisation de performance pour l'opération gated_delta_net et fournissant des binaires préconstruits pour macOS, Linux, Windows, Android et openEuler.

Supprime les copies CUDA redondantes après gated_delta_net en détectant le motif gated_delta_net -> view -> cpy.
Permet au noyau CUDA GDN d'écrire directement des instantanés d'état dans le cache récurrent, en sautant les écritures de queue intermédiaires.
Désactive le support KleidiAI pour macOS Apple Silicon dans cette version.
Fournit des binaires pour Ubuntu x64/arm64/s390x avec les backends CPU, Vulkan, ROCm 7.2, OpenVINO et SYCL.
Inclut des builds Windows pour CPU, OpenCL Adreno, CUDA 12/13, Vulkan, OpenVINO, SYCL et HIP.

Cette mise à jour améliore l'efficacité de l'inférence sur les architectures GPU prises en charge tout en maintenant une large compatibilité à travers divers systèmes d'exploitation et accélérateurs matériels.