Le projet llama.cpp a publié la version b9855, qui introduit une optimisation AVX2 pour le produit scalaire nvfp4 en utilisant une table de consultation (LUT) UE4M3 dans le backend ggml-cpu.

  • Les versions macOS Apple Silicon et Intel sont disponibles ainsi qu'un iOS XCFramework.
  • Les binaires Linux prennent en charge les architectures Ubuntu x64, arm64 et s390x via CPU, Vulkan, ROCm 7.2, OpenVINO et SYCL (FP32/FP16).
  • Les versions Windows incluent les backends CPU, OpenCL Adreno, CUDA 12.4 et 13.3, Vulkan, OpenVINO, SYCL et HIP.
  • Des binaires CPU arm64 pour Android sont fournis pour le déploiement mobile.
  • Le support KleidiAI sur macOS Apple Silicon est désactivé dans cette version.

Cette mise à jour offre aux utilisateurs des capacités d'inférence optimisées pour des configurations matérielles spécifiques et élargit la gamme des accélérateurs pris en charge sur les principaux systèmes d'exploitation.