Rilis llama.cpp b9862: Optimisasi CUDA dan biner multi-platform

Proyek llama.cpp telah merilis versi b9862, yang menampilkan optimasi kinerja untuk operasi gated_delta_net dan menyediakan biner pra-bangun untuk macOS, Linux, Windows, Android, dan openEuler.

Menghapus salinan CUDA redundan setelah gated_delta_net dengan mendeteksi pola gated_delta_net -> view -> cpy.
Memungkinkan kernel CUDA GDN menulis snapshot keadaan langsung ke cache rekuren, melewatkan penulisan ekor antara.
Menonaktifkan dukungan KleidiAI untuk macOS Apple Silicon dalam rilis ini.
Menyediakan biner untuk Ubuntu x64/arm64/s390x dengan backend CPU, Vulkan, ROCm 7.2, OpenVINO, dan SYCL.
Termasuk build Windows untuk CPU, OpenCL Adreno, CUDA 12/13, Vulkan, OpenVINO, SYCL, dan HIP.

Pembaruan ini meningkatkan efisiensi inferensi pada arsitektur GPU yang didukung sambil mempertahankan kompatibilitas luas di berbagai sistem operasi dan akselerator perangkat keras.