Rilis llama.cpp b9847 memperbaiki Gemma E4B MTP FlashAttention

Proyek llama.cpp telah merilis versi b9847, yang mencakup perbaikan untuk Gemma E4B MTP FlashAttention pada CUDA dan penghapusan deklarasi template yang tidak digunakan.

Memperbaiki Gemma E4B MTP FlashAttention di backend CUDA (#25148)
Menghapus deklarasi template yang tidak digunakan
Binaries macOS Apple Silicon (arm64) tersedia
Binaries macOS Intel (x64) tersedia
iOS XCFramework disediakan
Build CPU Ubuntu x64 dan arm64 disertakan
Build Vulkan, ROCm 7.2, OpenVINO, SYCL FP32, dan SYCL FP16 untuk Ubuntu tersedia
Build CPU Android arm64 dirilis
Build CPU Windows x64 dan arm64 disediakan
Build CUDA 12.4 dan 13.3 dengan DLLs disertakan
Build Vulkan, OpenVINO, SYCL, dan HIP untuk Windows tersedia
Build openEuler x86 dan aarch64 untuk prosesor 310p dan 910b (ACL Graph)
Binary UI umum dirilis