Le projet llama.cpp a publié la version b9862, offrant une optimisation de performance pour l'opération gated_delta_net et fournissant des binaires préconstruits pour macOS, Linux, Windows, Android et openEuler.
- Supprime les copies CUDA redondantes après gated_delta_net en détectant le motif gated_delta_net -> view -> cpy.
- Permet au noyau CUDA GDN d'écrire directement des instantanés d'état dans le cache récurrent, en sautant les écritures de queue intermédiaires.
- Désactive le support KleidiAI pour macOS Apple Silicon dans cette version.
- Fournit des binaires pour Ubuntu x64/arm64/s390x avec les backends CPU, Vulkan, ROCm 7.2, OpenVINO et SYCL.
- Inclut des builds Windows pour CPU, OpenCL Adreno, CUDA 12/13, Vulkan, OpenVINO, SYCL et HIP.
Cette mise à jour améliore l'efficacité de l'inférence sur les architectures GPU prises en charge tout en maintenant une large compatibilité à travers divers systèmes d'exploitation et accélérateurs matériels.