O projeto llama.cpp lançou a versão b9847, que inclui uma correção para o Gemma E4B MTP FlashAttention no CUDA e a remoção de uma declaração de template não utilizada.

  • Corrige Gemma E4B MTP FlashAttention no backend CUDA (#25148)
  • Remove declaração de template não utilizada
  • Binários para macOS Apple Silicon (arm64) disponíveis
  • Binários para macOS Intel (x64) disponíveis
  • XCFramework para iOS fornecido
  • Builds de CPU Ubuntu x64 e arm64 incluídos
  • Builds Ubuntu Vulkan, ROCm 7.2, OpenVINO, SYCL FP32 e SYCL FP16 disponíveis
  • Build de CPU Android arm64 lançado
  • Builds de CPU Windows x64 e arm64 fornecidos
  • Builds Windows CUDA 12.4 e 13.3 com DLLs incluídos
  • Builds Windows Vulkan, OpenVINO, SYCL e HIP disponíveis
  • Builds openEuler x86 e aarch64 para processadores 310p e 910b (ACL Graph)
  • Binário geral da UI lançado