github llama.cpp · 17時間前 · inference

llama.cpp b9847 リリースでGemma E4B MTP FlashAttentionの修正

翻訳元 English → 日本語

llama.cppプロジェクトはバージョンb9847をリリースしました。このリリースには、CUDAにおけるGemma E4B MTP FlashAttentionの修正と、未使用のテンプレート宣言の削除が含まれています。

CUDAバックエンドでのGemma E4B MTP FlashAttentionを修正 (#25148)
未使用のテンプレート宣言を削除
macOS Apple Silicon (arm64) バイナリを提供
macOS Intel (x64) バイナリを提供
iOS XCFrameworkを提供
Ubuntu x64 および arm64 CPUビルドを含める
Ubuntu Vulkan、ROCm 7.2、OpenVINO、SYCL FP32、SYCL FP16ビルドを提供
Android arm64 CPUビルドをリリース
Windows x64 および arm64 CPUビルドを提供
DLL付きのWindows CUDA 12.4 および 13.3ビルドを提供
Windows Vulkan、OpenVINO、SYCL、HIPビルドを提供
openEuler向け 310p および 910b (ACL Graph) プロセッサ用 x86 および aarch64 ビルド
一般用UIバイナリをリリース

重要度 1/3 信頼度 2/3 llama.cpp

原文を読む