Proyek llama.cpp telah merilis versi b9856, memperkenalkan penggunaan konsisten dari kata kunci `restrict` dan PDL untuk Flash Attention di CUDA. Pembaruan ini disertai dengan biner pra-dibangun untuk macOS, Linux, Android, Windows, dan openEuler di berbagai backend perangkat keras.
- Build macOS Apple Silicon (arm64) tersedia, sementara dukungan KleidiAI tetap dinonaktifkan.
- Biner Linux mencakup CPU (x64, arm64, s390x), Vulkan, ROCm 7.2, OpenVINO, dan SYCL FP32/FP16.
- Rilis Windows mencakup CPU, OpenCL Adreno, CUDA 12.4/13.3, Vulkan, OpenVINO, SYCL, dan HIP.
- Biner Android arm64 (CPU) dan UI juga disediakan untuk rilis ini.