llama.cpp b9859 版本引入了从库中加载预编译二进制内核的能力,专门针对 Adreno GPU。此更新还为 macOS、Linux、Windows、Android 和 openEuler 提供了适用于 CPU、GPU 和各种加速后端的二进制文件。

  • 允许通过 ggml-backend-dl 加载二进制内核库以解决循环依赖。
  • 从内核库中加载特定的内核,如 gemm_moe_mxfp4_f32_ns、q8_0、q4_0、q4_1 和 q4_k moe gemm。
  • 始终为 OpenCL Adreno 支持声明 get_adreno_bin_kernel_func_t。
  • 此版本中禁用了带有 KleidiAI 的 macOS Apple Silicon。

此增强功能通过启用预编译二进制内核来提高 OpenCL 性能,同时保持与广泛硬件平台的兼容性。