O lançamento b9859 do llama.cpp introduz a capacidade de carregar kernels binários pré-compilados de bibliotecas para OpenCL, direcionados especificamente para GPUs Adreno. Esta atualização também fornece binários para macOS, Linux, Windows, Android e openEuler em CPU, GPU e vários backends de acelerador.
- Permite carregar bibliotecas de kernels binários via ggml-backend-dl para resolver dependências cíclicas.
- Carrega kernels específicos como gemm_moe_mxfp4_f32_ns, q8_0, q4_0, q4_1 e q4_k moe gemm da biblioteca de kernels.
- Sempre declara get_adreno_bin_kernel_func_t para suporte Adreno em OpenCL.
- O suporte a macOS Apple Silicon com KleidiAI está desativado neste lançamento.
Esta melhoria melhora o desempenho do OpenCL habilitando kernels binários pré-compilados enquanto mantém a compatibilidade em uma ampla gama de plataformas de hardware.