El proyecto llama.cpp ha lanzado la versión b9856, introduciendo el uso consistente de la palabra clave `restrict` y PDL para Flash Attention en CUDA. Esta actualización viene acompañada de binarios precompilados para macOS, Linux, Android, Windows y openEuler a través de varios backends de hardware.
- Las compilaciones para macOS Apple Silicon (arm64) están disponibles, mientras que el soporte de KleidiAI permanece deshabilitado.
- Los binarios de Linux cubren CPU (x64, arm64, s390x), Vulkan, ROCm 7.2, OpenVINO y SYCL FP32/FP16.
- Las versiones para Windows incluyen CPU, OpenCL Adreno, CUDA 12.4/13.3, Vulkan, OpenVINO, SYCL e HIP.
- También se proporcionan binarios de arm64 (CPU) y UI para Android en este lanzamiento.