Le projet llama.cpp a publié la version b9847, qui inclut une correction pour Gemma E4B MTP FlashAttention sur CUDA et la suppression d'une déclaration de template inutilisée.

  • Correction de Gemma E4B MTP FlashAttention dans le backend CUDA (#25148)
  • Suppression de la déclaration de template inutilisée
  • Binaires macOS Apple Silicon (arm64) disponibles
  • Binaires macOS Intel (x64) disponibles
  • XCFramework iOS fourni
  • Builds CPU Ubuntu x64 et arm64 inclus
  • Builds Ubuntu Vulkan, ROCm 7.2, OpenVINO, SYCL FP32 et SYCL FP16 disponibles
  • Build CPU Android arm64 publié
  • Builds CPU Windows x64 et arm64 fournis
  • Builds Windows CUDA 12.4 et 13.3 avec DLLs incluses
  • Builds Windows Vulkan, OpenVINO, SYCL et HIP disponibles
  • Builds openEuler x86 et aarch64 pour les processeurs 310p et 910b (ACL Graph)
  • Binaire d'interface utilisateur général publié