github llama.cpp · 2 小时前 · inference

llama.cpp b9852 版本新增对 OpenCL q1_0 的支持

译自 English → 中文

llama.cpp 项目已发布 b9852 版本，引入了对 q1_0 量化格式的初步 OpenCL 支持。此更新包括通用的 q1_0 功能以及针对 OpenCL 设备的特定 Adreno GEMM/GEMV 实现。

为 q1_0 量化提供初始 OpenCL 支持
添加了适用于 q1_0 的 Adreno GEMM/GEMV 内核
提供 macOS Apple Silicon (arm64) 二进制文件
本版本禁用了 macOS Apple Silicon 上的 KleidiAI
Ubuntu 构建版支持 CPU、Vulkan、ROCm 7.2、OpenVINO 和 SYCL
Windows 构建版包含 CUDA 12/13、Vulkan、OpenVINO、SYCL、HIP 和 OpenCL Adreno
发布 Android arm64 (CPU) 二进制文件
openEuler 支持 x86 和 aarch64 架构，并启用 ACL Graph

此版本通过启用 OpenCL 设备上的高效 q1_0 推理扩展了硬件兼容性，并为多种操作系统和加速器提供了更新的二进制文件。

重要性 1/3 可信度 2/3 llama.cpp Hugging Face Inference efficiency