Le projet llama.cpp a publié la version b9844, qui introduit le support ggml-webgpu pour le format de quantification NVFP4. Cette mise à jour fournit également des binaires préconstruits pour macOS, iOS, Linux, Android, Windows et openEuler sur divers backends matériels.

  • Ajout du support NVFP4 à ggml-webgpu via la demande de tirage #25143.
  • Désactivation des builds KleidiAI pour macOS Apple Silicon et openEuler dans cette version.
  • Fourniture de binaires pour Ubuntu (CPU, Vulkan, ROCm 7.2, OpenVINO, SYCL FP32/FP16), Windows (CPU, CUDA 12/13, Vulkan, OpenVINO, SYCL, HIP) et Android arm64.
  • Publication des binaires macOS Apple Silicon (arm64 et x64) ainsi qu'un iOS XCFramework.
  • Inclusion de binaires UI pour un usage général.

Cette version permet aux développeurs d'utiliser la quantification NVFP4 sur les appareils WebGPU tout en offrant des exécutables préconstruits mis à jour pour une large gamme de systèmes d'exploitation et d'architectures GPU.