llama.cpp b9856 release avec restrict CUDA + PDL pour FA

Le projet llama.cpp a publié la version b9856, introduisant une utilisation cohérente du mot-clé `restrict` et de PDL pour Flash Attention dans CUDA. Cette mise à jour est accompagnée de binaires précompilés pour macOS, Linux, Android, Windows et openEuler sur divers backends matériels.

Les builds macOS Apple Silicon (arm64) sont disponibles, tandis que le support KleidiAI reste désactivé.
Les binaires Linux couvrent CPU (x64, arm64, s390x), Vulkan, ROCm 7.2, OpenVINO et SYCL FP32/FP16.
Les versions Windows incluent CPU, OpenCL Adreno, CUDA 12.4/13.3, Vulkan, OpenVINO, SYCL et HIP.
Des binaires Android arm64 (CPU) et UI sont également fournis pour cette release.