Le projet llama.cpp a publié la version b9856, introduisant une utilisation cohérente du mot-clé `restrict` et de PDL pour Flash Attention dans CUDA. Cette mise à jour est accompagnée de binaires précompilés pour macOS, Linux, Android, Windows et openEuler sur divers backends matériels.
- Les builds macOS Apple Silicon (arm64) sont disponibles, tandis que le support KleidiAI reste désactivé.
- Les binaires Linux couvrent CPU (x64, arm64, s390x), Vulkan, ROCm 7.2, OpenVINO et SYCL FP32/FP16.
- Les versions Windows incluent CPU, OpenCL Adreno, CUDA 12.4/13.3, Vulkan, OpenVINO, SYCL et HIP.
- Des binaires Android arm64 (CPU) et UI sont également fournis pour cette release.