O projeto llama.cpp lançou a versão b9856, introduzindo o uso consistente da palavra-chave `restrict` e PDL para Flash Attention em CUDA. Esta atualização é acompanhada por binários pré-compilados para macOS, Linux, Android, Windows e openEuler em vários backends de hardware.
- Builds para macOS Apple Silicon (arm64) estão disponíveis, enquanto o suporte ao KleidiAI permanece desativado.
- Os binários do Linux abrangem CPU (x64, arm64, s390x), Vulkan, ROCm 7.2, OpenVINO e SYCL FP32/FP16.
- Os lançamentos para Windows incluem CPU, OpenCL Adreno, CUDA 12.4/13.3, Vulkan, OpenVINO, SYCL e HIP.
- Binários para Android arm64 (CPU) e UI também são fornecidos nesta versão.