Proyek llama.cpp telah merilis versi b9851, yang mencakup perbaikan untuk CUDA guna mencegah kesalahan pemotongan integer dan overflow pada kernel flash_attn_mask_to_KV_max. Pembaruan ini mengatasi masalah terkait langkah-langkah mask KQ dalam kernel yang ditentukan.

  • Biner macOS Apple Silicon (arm64) tersedia, sementara dukungan KleidiAI dinonaktifkan.
  • Build Linux mencakup Ubuntu x64 dan arm64 untuk CPU, Vulkan, ROCm 7.2, OpenVINO, dan SYCL FP32/FP16.
  • Biner Android arm64 (CPU) disediakan untuk perangkat seluler.
  • Rilis Windows mencakup varian CPU, OpenCL Adreno, CUDA 12/13, Vulkan, OpenVINO, SYCL, dan HIP.
  • Build openEuler untuk arsitektur x86 dan aarch64 terdaftar, dengan beberapa konfigurasi dinonaktifkan.
  • Biner UI mandiri juga disertakan dalam aset rilis.

Rilis ini memastikan stabilitas bagi pengguna CUDA dengan memperbaiki kesalahan perhitungan dan menyediakan biner pra-bangun yang komprehensif di berbagai sistem operasi utama dan akselerator perangkat keras.