La version b9844 de llama.cpp ajoute le support NVFP4 et de nouveaux binaires

Le projet llama.cpp a publié la version b9844, qui introduit le support ggml-webgpu pour le format de quantification NVFP4. Cette mise à jour fournit également des binaires préconstruits pour macOS, iOS, Linux, Android, Windows et openEuler sur divers backends matériels.

Ajout du support NVFP4 à ggml-webgpu via la demande de tirage #25143.
Désactivation des builds KleidiAI pour macOS Apple Silicon et openEuler dans cette version.
Fourniture de binaires pour Ubuntu (CPU, Vulkan, ROCm 7.2, OpenVINO, SYCL FP32/FP16), Windows (CPU, CUDA 12/13, Vulkan, OpenVINO, SYCL, HIP) et Android arm64.
Publication des binaires macOS Apple Silicon (arm64 et x64) ainsi qu'un iOS XCFramework.
Inclusion de binaires UI pour un usage général.

Cette version permet aux développeurs d'utiliser la quantification NVFP4 sur les appareils WebGPU tout en offrant des exécutables préconstruits mis à jour pour une large gamme de systèmes d'exploitation et d'architectures GPU.