La version b9855 de llama.cpp ajoute l'optimisation AVX2 nvfp4 et de nouveaux binaires

Le projet llama.cpp a publié la version b9855, qui introduit une optimisation AVX2 pour le produit scalaire nvfp4 en utilisant une table de consultation (LUT) UE4M3 dans le backend ggml-cpu.

Les versions macOS Apple Silicon et Intel sont disponibles ainsi qu'un iOS XCFramework.
Les binaires Linux prennent en charge les architectures Ubuntu x64, arm64 et s390x via CPU, Vulkan, ROCm 7.2, OpenVINO et SYCL (FP32/FP16).
Les versions Windows incluent les backends CPU, OpenCL Adreno, CUDA 12.4 et 13.3, Vulkan, OpenVINO, SYCL et HIP.
Des binaires CPU arm64 pour Android sont fournis pour le déploiement mobile.
Le support KleidiAI sur macOS Apple Silicon est désactivé dans cette version.

Cette mise à jour offre aux utilisateurs des capacités d'inférence optimisées pour des configurations matérielles spécifiques et élargit la gamme des accélérateurs pris en charge sur les principaux systèmes d'exploitation.