O projeto llama.cpp lançou a versão b9847, que inclui uma correção para o Gemma E4B MTP FlashAttention no CUDA e a remoção de uma declaração de template não utilizada.
- Corrige Gemma E4B MTP FlashAttention no backend CUDA (#25148)
- Remove declaração de template não utilizada
- Binários para macOS Apple Silicon (arm64) disponíveis
- Binários para macOS Intel (x64) disponíveis
- XCFramework para iOS fornecido
- Builds de CPU Ubuntu x64 e arm64 incluídos
- Builds Ubuntu Vulkan, ROCm 7.2, OpenVINO, SYCL FP32 e SYCL FP16 disponíveis
- Build de CPU Android arm64 lançado
- Builds de CPU Windows x64 e arm64 fornecidos
- Builds Windows CUDA 12.4 e 13.3 com DLLs incluídos
- Builds Windows Vulkan, OpenVINO, SYCL e HIP disponíveis
- Builds openEuler x86 e aarch64 para processadores 310p e 910b (ACL Graph)
- Binário geral da UI lançado