llama.cpp 项目已发布 b9852 版本,引入了对 q1_0 量化格式的初步 OpenCL 支持。此更新包括通用的 q1_0 功能以及针对 OpenCL 设备的特定 Adreno GEMM/GEMV 实现。

  • 为 q1_0 量化提供初始 OpenCL 支持
  • 添加了适用于 q1_0 的 Adreno GEMM/GEMV 内核
  • 提供 macOS Apple Silicon (arm64) 二进制文件
  • 本版本禁用了 macOS Apple Silicon 上的 KleidiAI
  • Ubuntu 构建版支持 CPU、Vulkan、ROCm 7.2、OpenVINO 和 SYCL
  • Windows 构建版包含 CUDA 12/13、Vulkan、OpenVINO、SYCL、HIP 和 OpenCL Adreno
  • 发布 Android arm64 (CPU) 二进制文件
  • openEuler 支持 x86 和 aarch64 架构,并启用 ACL Graph

此版本通过启用 OpenCL 设备上的高效 q1_0 推理扩展了硬件兼容性,并为多种操作系统和加速器提供了更新的二进制文件。