La version b9848 de llama.cpp corrige get_rows_back pour CUDA et fournit des binaires

Le projet llama.cpp a publié la version b9848, qui inclut une correction critique pour le backend CUDA afin de résoudre les problèmes avec la fonction `get_rows_back` sur les tables dépassant 65535 lignes. Cette mise à jour corrige le clampage grid-y et les erreurs de stride qui affectaient précédemment les opérations sur de grandes tables.

Correction de CUDA `get_rows_back` pour les tables de plus de 65535 lignes en corrigeant la logique de clamp grid-y et de stride (PR #25103).
Le support KleidiAI pour macOS Apple Silicon est DÉSACTIVÉ dans cette version.
Les builds standard openEuler sont DÉSACTIVÉS, mais des builds spécifiques pour x86 (310p, 910b ACL Graph) et aarch64 (310p, 910b ACL Graph) restent disponibles.
Des binaires sont fournis pour macOS (Apple Silicon arm64 et Intel x64), Linux (CPU Ubuntu, Vulkan, ROCm 7.2, OpenVINO, SYCL FP32/FP16), Android (CPU arm64), Windows (CPU, OpenCL Adreno, CUDA 12/13, Vulkan, OpenVINO, SYCL, HIP) et l'interface utilisateur autonome.

Cette version assure la stabilité pour les utilisateurs de CUDA manipulant de grandes structures de données tout en offrant des binaires préconstruits complets sur les principaux systèmes d'exploitation et accélérateurs matériels.