llama.cpp 项目已发布 b9847 版本,其中包含对 CUDA 上 Gemma E4B MTP FlashAttention 的修复以及移除未使用的模板声明。

  • 修复了 CUDA 后端中的 Gemma E4B MTP FlashAttention (#25148)
  • 移除了未使用的模板声明
  • macOS Apple Silicon (arm64) 二进制文件可用
  • macOS Intel (x64) 二进制文件可用
  • 提供 iOS XCFramework
  • 包含 Ubuntu x64 和 arm64 CPU 构建版本
  • 提供 Ubuntu Vulkan、ROCm 7.2、OpenVINO、SYCL FP32 和 SYCL FP16 构建版本
  • 发布 Android arm64 CPU 构建版本
  • 提供 Windows x64 和 arm64 CPU 构建版本
  • 提供包含 DLL 的 Windows CUDA 12.4 和 13.3 构建版本
  • 提供 Windows Vulkan、OpenVINO、SYCL 和 HIP 构建版本
  • 为 310p 和 910b (ACL Graph) 处理器提供 openEuler x86 和 aarch64 构建版本
  • 发布通用 UI 二进制文件