Le projet llama.cpp a publié la version b9847, qui inclut une correction pour Gemma E4B MTP FlashAttention sur CUDA et la suppression d'une déclaration de template inutilisée.
- Correction de Gemma E4B MTP FlashAttention dans le backend CUDA (#25148)
- Suppression de la déclaration de template inutilisée
- Binaires macOS Apple Silicon (arm64) disponibles
- Binaires macOS Intel (x64) disponibles
- XCFramework iOS fourni
- Builds CPU Ubuntu x64 et arm64 inclus
- Builds Ubuntu Vulkan, ROCm 7.2, OpenVINO, SYCL FP32 et SYCL FP16 disponibles
- Build CPU Android arm64 publié
- Builds CPU Windows x64 et arm64 fournis
- Builds Windows CUDA 12.4 et 13.3 avec DLLs incluses
- Builds Windows Vulkan, OpenVINO, SYCL et HIP disponibles
- Builds openEuler x86 et aarch64 pour les processeurs 310p et 910b (ACL Graph)
- Binaire d'interface utilisateur général publié