Proyek llama.cpp telah merilis versi b9847, yang mencakup perbaikan untuk Gemma E4B MTP FlashAttention pada CUDA dan penghapusan deklarasi template yang tidak digunakan.

  • Memperbaiki Gemma E4B MTP FlashAttention di backend CUDA (#25148)
  • Menghapus deklarasi template yang tidak digunakan
  • Binaries macOS Apple Silicon (arm64) tersedia
  • Binaries macOS Intel (x64) tersedia
  • iOS XCFramework disediakan
  • Build CPU Ubuntu x64 dan arm64 disertakan
  • Build Vulkan, ROCm 7.2, OpenVINO, SYCL FP32, dan SYCL FP16 untuk Ubuntu tersedia
  • Build CPU Android arm64 dirilis
  • Build CPU Windows x64 dan arm64 disediakan
  • Build CUDA 12.4 dan 13.3 dengan DLLs disertakan
  • Build Vulkan, OpenVINO, SYCL, dan HIP untuk Windows tersedia
  • Build openEuler x86 dan aarch64 untuk prosesor 310p dan 910b (ACL Graph)
  • Binary UI umum dirilis