La version b9847 de llama.cpp corrige Gemma E4B MTP FlashAttention

Le projet llama.cpp a publié la version b9847, qui inclut une correction pour Gemma E4B MTP FlashAttention sur CUDA et la suppression d'une déclaration de template inutilisée.

Correction de Gemma E4B MTP FlashAttention dans le backend CUDA (#25148)
Suppression de la déclaration de template inutilisée
Binaires macOS Apple Silicon (arm64) disponibles
Binaires macOS Intel (x64) disponibles
XCFramework iOS fourni
Builds CPU Ubuntu x64 et arm64 inclus
Builds Ubuntu Vulkan, ROCm 7.2, OpenVINO, SYCL FP32 et SYCL FP16 disponibles
Build CPU Android arm64 publié
Builds CPU Windows x64 et arm64 fournis
Builds Windows CUDA 12.4 et 13.3 avec DLLs incluses
Builds Windows Vulkan, OpenVINO, SYCL et HIP disponibles
Builds openEuler x86 et aarch64 pour les processeurs 310p et 910b (ACL Graph)
Binaire d'interface utilisateur général publié