la versión b9847 de llama.cpp corrige Gemma E4B MTP FlashAttention

El proyecto llama.cpp ha lanzado la versión b9847, que incluye una corrección para Gemma E4B MTP FlashAttention en CUDA y la eliminación de una declaración de plantilla sin usar.

Corrige Gemma E4B MTP FlashAttention en el backend de CUDA (#25148)
Elimina la declaración de plantilla sin usar
Binarios disponibles para macOS Apple Silicon (arm64)
Binarios disponibles para macOS Intel (x64)
XCFramework para iOS proporcionado
Compilaciones de CPU x64 y arm64 para Ubuntu incluidas
Compilaciones disponibles para Ubuntu Vulkan, ROCm 7.2, OpenVINO, SYCL FP32 y SYCL FP16
Compilación de CPU arm64 para Android lanzada
Compilaciones de CPU x64 y arm64 para Windows proporcionadas
Compilaciones de CUDA 12.4 y 13.3 para Windows con DLLs incluidas
Compilaciones disponibles para Windows Vulkan, OpenVINO, SYCL e HIP
Compilaciones openEuler x86 y aarch64 para procesadores 310p y 910b (ACL Graph)
Binario de interfaz de usuario general lanzado