lançamento b9847 do llama.cpp corrige Gemma E4B MTP FlashAttention

O projeto llama.cpp lançou a versão b9847, que inclui uma correção para o Gemma E4B MTP FlashAttention no CUDA e a remoção de uma declaração de template não utilizada.

Corrige Gemma E4B MTP FlashAttention no backend CUDA (#25148)
Remove declaração de template não utilizada
Binários para macOS Apple Silicon (arm64) disponíveis
Binários para macOS Intel (x64) disponíveis
XCFramework para iOS fornecido
Builds de CPU Ubuntu x64 e arm64 incluídos
Builds Ubuntu Vulkan, ROCm 7.2, OpenVINO, SYCL FP32 e SYCL FP16 disponíveis
Build de CPU Android arm64 lançado
Builds de CPU Windows x64 e arm64 fornecidos
Builds Windows CUDA 12.4 e 13.3 com DLLs incluídos
Builds Windows Vulkan, OpenVINO, SYCL e HIP disponíveis
Builds openEuler x86 e aarch64 para processadores 310p e 910b (ACL Graph)
Binário geral da UI lançado