Proyek llama.cpp telah merilis versi b9862, yang menampilkan optimasi kinerja untuk operasi gated_delta_net dan menyediakan biner pra-bangun untuk macOS, Linux, Windows, Android, dan openEuler.
- Menghapus salinan CUDA redundan setelah gated_delta_net dengan mendeteksi pola gated_delta_net -> view -> cpy.
- Memungkinkan kernel CUDA GDN menulis snapshot keadaan langsung ke cache rekuren, melewatkan penulisan ekor antara.
- Menonaktifkan dukungan KleidiAI untuk macOS Apple Silicon dalam rilis ini.
- Menyediakan biner untuk Ubuntu x64/arm64/s390x dengan backend CPU, Vulkan, ROCm 7.2, OpenVINO, dan SYCL.
- Termasuk build Windows untuk CPU, OpenCL Adreno, CUDA 12/13, Vulkan, OpenVINO, SYCL, dan HIP.
Pembaruan ini meningkatkan efisiensi inferensi pada arsitektur GPU yang didukung sambil mempertahankan kompatibilitas luas di berbagai sistem operasi dan akselerator perangkat keras.