llama.cpp 项目已发布 b9847 版本,其中包含对 CUDA 上 Gemma E4B MTP FlashAttention 的修复以及移除未使用的模板声明。
- 修复了 CUDA 后端中的 Gemma E4B MTP FlashAttention (#25148)
- 移除了未使用的模板声明
- macOS Apple Silicon (arm64) 二进制文件可用
- macOS Intel (x64) 二进制文件可用
- 提供 iOS XCFramework
- 包含 Ubuntu x64 和 arm64 CPU 构建版本
- 提供 Ubuntu Vulkan、ROCm 7.2、OpenVINO、SYCL FP32 和 SYCL FP16 构建版本
- 发布 Android arm64 CPU 构建版本
- 提供 Windows x64 和 arm64 CPU 构建版本
- 提供包含 DLL 的 Windows CUDA 12.4 和 13.3 构建版本
- 提供 Windows Vulkan、OpenVINO、SYCL 和 HIP 构建版本
- 为 310p 和 910b (ACL Graph) 处理器提供 openEuler x86 和 aarch64 构建版本
- 发布通用 UI 二进制文件