La version llama.cpp b9670 inclut des corrections pour les cas limites NVFP4 dans llama-graph, notamment le déplacement des opérations MUL post-GEMM et la restriction de build_ffn aux combinaisons prises en charge. La version fournit des binaires pour macOS, Linux, Android, Windows et openEuler sur plusieurs architectures et options de backend, y compris CUDA, Vulkan, SYCL et OpenVINO.