Proyek llama.cpp telah merilis versi b9862, yang menampilkan optimasi kinerja untuk operasi gated_delta_net dan menyediakan biner pra-bangun untuk macOS, Linux, Windows, Android, dan openEuler.

  • Menghapus salinan CUDA redundan setelah gated_delta_net dengan mendeteksi pola gated_delta_net -> view -> cpy.
  • Memungkinkan kernel CUDA GDN menulis snapshot keadaan langsung ke cache rekuren, melewatkan penulisan ekor antara.
  • Menonaktifkan dukungan KleidiAI untuk macOS Apple Silicon dalam rilis ini.
  • Menyediakan biner untuk Ubuntu x64/arm64/s390x dengan backend CPU, Vulkan, ROCm 7.2, OpenVINO, dan SYCL.
  • Termasuk build Windows untuk CPU, OpenCL Adreno, CUDA 12/13, Vulkan, OpenVINO, SYCL, dan HIP.

Pembaruan ini meningkatkan efisiensi inferensi pada arsitektur GPU yang didukung sambil mempertahankan kompatibilitas luas di berbagai sistem operasi dan akselerator perangkat keras.