llama.cpp Release b9670: Correcciones y nuevas compilaciones
La versión b9670 de llama.cpp incluye correcciones para casos límite de NVFP4 en llama-graph, como el movimiento de operaciones MUL post-GEMM y la restricción de build_ffn a combinaciones admitidas. La versión proporciona binarios para macOS, Linux, Android, Windows y openEuler en múltiples arquitecturas y opciones de backend, incluyendo CUDA, Vulkan, SYCL y OpenVINO.