llama.cpp b9831 版本引入了 DFlash v2 支持,包括按层类型的滑动窗口注意力机制,并附带针对多个平台的全面预构建二进制文件。

  • macOS Apple Silicon (arm64) 和 Intel (x64) 构建版本已提供,同时还有 iOS XCFramework。
  • Linux 二进制文件涵盖 Ubuntu x64 和 arm64 CPU、s390x CPU、Vulkan、ROCm 7.2、OpenVINO 以及 SYCL FP32/FP16。
  • 为移动设备提供了 Android arm64 CPU 构建版本。
  • Windows 发行版包括 CPU、OpenCL Adreno、CUDA 12.4 和 13.3、Vulkan、OpenVINO、SYCL 以及 HIP 变体。
  • 包含支持 ACL Graph 的 openEuler x86 和 aarch64 构建版本,而 macOS KleidiAI 和 openEuler 通用构建版本已禁用。

此版本使用户能够在新 DFlash 优化功能的加持下,在更广泛的硬件加速器和操作系统上运行 llama.cpp。