El proyecto llama.cpp ha lanzado la versión b9847, que incluye una corrección para Gemma E4B MTP FlashAttention en CUDA y la eliminación de una declaración de plantilla sin usar.
- Corrige Gemma E4B MTP FlashAttention en el backend de CUDA (#25148)
- Elimina la declaración de plantilla sin usar
- Binarios disponibles para macOS Apple Silicon (arm64)
- Binarios disponibles para macOS Intel (x64)
- XCFramework para iOS proporcionado
- Compilaciones de CPU x64 y arm64 para Ubuntu incluidas
- Compilaciones disponibles para Ubuntu Vulkan, ROCm 7.2, OpenVINO, SYCL FP32 y SYCL FP16
- Compilación de CPU arm64 para Android lanzada
- Compilaciones de CPU x64 y arm64 para Windows proporcionadas
- Compilaciones de CUDA 12.4 y 13.3 para Windows con DLLs incluidas
- Compilaciones disponibles para Windows Vulkan, OpenVINO, SYCL e HIP
- Compilaciones openEuler x86 y aarch64 para procesadores 310p y 910b (ACL Graph)
- Binario de interfaz de usuario general lanzado