github llama.cpp · 17 小时前 · inference

llama.cpp b9847 版本修复了 Gemma E4B MTP FlashAttention

译自 English → 中文

llama.cpp 项目已发布 b9847 版本，其中包含对 CUDA 上 Gemma E4B MTP FlashAttention 的修复以及移除未使用的模板声明。

修复了 CUDA 后端中的 Gemma E4B MTP FlashAttention (#25148)
移除了未使用的模板声明
macOS Apple Silicon (arm64) 二进制文件可用
macOS Intel (x64) 二进制文件可用
提供 iOS XCFramework
包含 Ubuntu x64 和 arm64 CPU 构建版本
提供 Ubuntu Vulkan、ROCm 7.2、OpenVINO、SYCL FP32 和 SYCL FP16 构建版本
发布 Android arm64 CPU 构建版本
提供 Windows x64 和 arm64 CPU 构建版本
提供包含 DLL 的 Windows CUDA 12.4 和 13.3 构建版本
提供 Windows Vulkan、OpenVINO、SYCL 和 HIP 构建版本
为 310p 和 910b (ACL Graph) 处理器提供 openEuler x86 和 aarch64 构建版本
发布通用 UI 二进制文件

重要性 1/3 可信度 2/3 llama.cpp