Rilis llama.cpp b9856 dengan CUDA restrict + PDL untuk FA

Proyek llama.cpp telah merilis versi b9856, memperkenalkan penggunaan konsisten dari kata kunci `restrict` dan PDL untuk Flash Attention di CUDA. Pembaruan ini disertai dengan biner pra-dibangun untuk macOS, Linux, Android, Windows, dan openEuler di berbagai backend perangkat keras.

Build macOS Apple Silicon (arm64) tersedia, sementara dukungan KleidiAI tetap dinonaktifkan.
Biner Linux mencakup CPU (x64, arm64, s390x), Vulkan, ROCm 7.2, OpenVINO, dan SYCL FP32/FP16.
Rilis Windows mencakup CPU, OpenCL Adreno, CUDA 12.4/13.3, Vulkan, OpenVINO, SYCL, dan HIP.
Biner Android arm64 (CPU) dan UI juga disediakan untuk rilis ini.