llama.cpp b9851 リリースでCUDAの整数切り捨てが修正され、バイナリが提供される

llama.cppプロジェクトはバージョンb9851をリリースしました。このバージョンには、flash_attn_mask_to_KV_maxカーネルにおける整数切り捨ておよびオーバーフローエラーを防ぐためのCUDA修正が含まれています。このアップデートは、指定されたカーネル内のKQマスクストライドに関連する問題を解決します。

macOS Apple Silicon (arm64) 用のバイナリが利用可能ですが、KleidiAIサポートは無効化されています。
Linuxビルドには、CPU、Vulkan、ROCm 7.2、OpenVINO、SYCL FP32/FP16に対応したUbuntu x64およびarm64が含まれます。
Android arm64 (CPU) 用のバイナリがモバイルデバイス向けに提供されています。
Windowsリリースには、CPU、OpenCL Adreno、CUDA 12/13、Vulkan、OpenVINO、SYCL、HIPの各バリエーションが含まれます。
x86およびaarch64アーキテクチャ向けのopenEulerビルドがリストされており、一部の構成は無効化されています。
スタンドアロンのUIバイナリもリリースアセットに含まれています。

このリリースは、計算エラーを修正することでCUDAユーザーの安定性を確保し、主要なオペレーティングシステムおよびハードウェアアクセラレーター全体で包括的なプリビルドバイナリを提供します。