Proyek llama.cpp telah merilis versi b9847, yang mencakup perbaikan untuk Gemma E4B MTP FlashAttention pada CUDA dan penghapusan deklarasi template yang tidak digunakan.
- Memperbaiki Gemma E4B MTP FlashAttention di backend CUDA (#25148)
- Menghapus deklarasi template yang tidak digunakan
- Binaries macOS Apple Silicon (arm64) tersedia
- Binaries macOS Intel (x64) tersedia
- iOS XCFramework disediakan
- Build CPU Ubuntu x64 dan arm64 disertakan
- Build Vulkan, ROCm 7.2, OpenVINO, SYCL FP32, dan SYCL FP16 untuk Ubuntu tersedia
- Build CPU Android arm64 dirilis
- Build CPU Windows x64 dan arm64 disediakan
- Build CUDA 12.4 dan 13.3 dengan DLLs disertakan
- Build Vulkan, OpenVINO, SYCL, dan HIP untuk Windows tersedia
- Build openEuler x86 dan aarch64 untuk prosesor 310p dan 910b (ACL Graph)
- Binary UI umum dirilis