La version b9851 de llama.cpp corrige la troncature des entiers CUDA et fournit des binaires

Le projet llama.cpp a publié la version b9851, qui inclut une correction pour CUDA afin d'éviter les erreurs de troncature entière et de débordement dans le kernel flash_attn_mask_to_KV_max. Cette mise à jour traite des problèmes liés aux pas de masque KQ au sein du kernel spécifié.

Les binaires macOS Apple Silicon (arm64) sont disponibles, tandis que la prise en charge de KleidiAI est désactivée.
Les compilations Linux couvrent Ubuntu x64 et arm64 pour CPU, Vulkan, ROCm 7.2, OpenVINO et SYCL FP32/FP16.
Des binaires Android arm64 (CPU) sont fournis pour les appareils mobiles.
Les versions Windows incluent des variantes CPU, OpenCL Adreno, CUDA 12/13, Vulkan, OpenVINO, SYCL et HIP.
Les compilations openEuler pour les architectures x86 et aarch64 sont listées, avec certaines configurations désactivées.
Un binaire d'interface utilisateur autonome est également inclus dans les actifs de la version.

Cette version assure la stabilité pour les utilisateurs de CUDA en corrigeant les erreurs de calcul et fournit des binaires précompilés complets sur les principaux systèmes d'exploitation et accélérateurs matériels.