lançamento b9856 do llama.cpp com restrito CUDA + PDL para FA

O projeto llama.cpp lançou a versão b9856, introduzindo o uso consistente da palavra-chave `restrict` e PDL para Flash Attention em CUDA. Esta atualização é acompanhada por binários pré-compilados para macOS, Linux, Android, Windows e openEuler em vários backends de hardware.

Builds para macOS Apple Silicon (arm64) estão disponíveis, enquanto o suporte ao KleidiAI permanece desativado.
Os binários do Linux abrangem CPU (x64, arm64, s390x), Vulkan, ROCm 7.2, OpenVINO e SYCL FP32/FP16.
Os lançamentos para Windows incluem CPU, OpenCL Adreno, CUDA 12.4/13.3, Vulkan, OpenVINO, SYCL e HIP.
Binários para Android arm64 (CPU) e UI também são fornecidos nesta versão.