llama.cpp 版本 b9699 通过 PR #24721 引入了对 MUL_MAT 和 OUT_PROD 操作的 Q1_0 精度支持。该版本包含适用于 macOS、Linux、Android、Windows 和 openEuler 的预编译二进制文件,覆盖多种架构和加速框架,包括 SYCL(FP32 和 FP16)、Vulkan、CUDA、ROCm 和 OpenVINO。