Rilis b9851 llama.cpp memperbaiki pemotongan integer CUDA dan menyediakan biner

Proyek llama.cpp telah merilis versi b9851, yang mencakup perbaikan untuk CUDA guna mencegah kesalahan pemotongan integer dan overflow pada kernel flash_attn_mask_to_KV_max. Pembaruan ini mengatasi masalah terkait langkah-langkah mask KQ dalam kernel yang ditentukan.

Biner macOS Apple Silicon (arm64) tersedia, sementara dukungan KleidiAI dinonaktifkan.
Build Linux mencakup Ubuntu x64 dan arm64 untuk CPU, Vulkan, ROCm 7.2, OpenVINO, dan SYCL FP32/FP16.
Biner Android arm64 (CPU) disediakan untuk perangkat seluler.
Rilis Windows mencakup varian CPU, OpenCL Adreno, CUDA 12/13, Vulkan, OpenVINO, SYCL, dan HIP.
Build openEuler untuk arsitektur x86 dan aarch64 terdaftar, dengan beberapa konfigurasi dinonaktifkan.
Biner UI mandiri juga disertakan dalam aset rilis.

Rilis ini memastikan stabilitas bagi pengguna CUDA dengan memperbaiki kesalahan perhitungan dan menyediakan biner pra-bangun yang komprehensif di berbagai sistem operasi utama dan akselerator perangkat keras.