El proyecto llama.cpp ha lanzado la versión b9844, que introduce soporte ggml-webgpu para el formato de cuantización NVFP4. Esta actualización también proporciona binarios precompilados para macOS, iOS, Linux, Android, Windows y openEuler en varios backends de hardware.
- Añadido soporte NVFP4 a ggml-webgpu mediante la solicitud de extracción #25143.
- Desactivadas las compilaciones KleidiAI para macOS Apple Silicon y openEuler en esta versión.
- Proporcionados binarios para Ubuntu (CPU, Vulkan, ROCm 7.2, OpenVINO, SYCL FP32/FP16), Windows (CPU, CUDA 12/13, Vulkan, OpenVINO, SYCL, HIP) y Android arm64.
- Lanzados binarios para macOS Apple Silicon (arm64 y x64) junto con un iOS XCFramework.
- Incluidos binarios de UI para uso general.
Esta versión permite a los desarrolladores utilizar la cuantización NVFP4 en dispositivos WebGPU mientras ofrece ejecutables precompilados actualizados para una amplia gama de sistemas operativos y arquitecturas GPU.