llama.cppプロジェクトはバージョンb9851をリリースしました。このバージョンには、flash_attn_mask_to_KV_maxカーネルにおける整数切り捨ておよびオーバーフローエラーを防ぐためのCUDA修正が含まれています。このアップデートは、指定されたカーネル内のKQマスクストライドに関連する問題を解決します。
- macOS Apple Silicon (arm64) 用のバイナリが利用可能ですが、KleidiAIサポートは無効化されています。
- Linuxビルドには、CPU、Vulkan、ROCm 7.2、OpenVINO、SYCL FP32/FP16に対応したUbuntu x64およびarm64が含まれます。
- Android arm64 (CPU) 用のバイナリがモバイルデバイス向けに提供されています。
- Windowsリリースには、CPU、OpenCL Adreno、CUDA 12/13、Vulkan、OpenVINO、SYCL、HIPの各バリエーションが含まれます。
- x86およびaarch64アーキテクチャ向けのopenEulerビルドがリストされており、一部の構成は無効化されています。
- スタンドアロンのUIバイナリもリリースアセットに含まれています。
このリリースは、計算エラーを修正することでCUDAユーザーの安定性を確保し、主要なオペレーティングシステムおよびハードウェアアクセラレーター全体で包括的なプリビルドバイナリを提供します。