O projeto llama.cpp lançou a versão b9844, que introduz o suporte ao ggml-webgpu para o formato de quantização NVFP4. Esta atualização também fornece binários pré-compilados para macOS, iOS, Linux, Android, Windows e openEuler em vários backends de hardware.
- Adicionado suporte a NVFP4 ao ggml-webgpu via pull request #25143.
- Builds do KleidiAI desativados para macOS Apple Silicon e openEuler nesta versão.
- Fornecidos binários para Ubuntu (CPU, Vulkan, ROCm 7.2, OpenVINO, SYCL FP32/FP16), Windows (CPU, CUDA 12/13, Vulkan, OpenVINO, SYCL, HIP) e Android arm64.
- Lançados binários para macOS Apple Silicon (arm64 e x64) junto com um iOS XCFramework.
- Incluídos binários de UI para uso geral.
Este lançamento permite que os desenvolvedores utilizem a quantização NVFP4 em dispositivos WebGPU, ao mesmo tempo que oferece executáveis pré-compilados atualizados para uma ampla gama de sistemas operacionais e arquiteturas de GPU.