Lançamento b9859 do llama.cpp adiciona suporte a kernels pré-compilados OpenCL

O lançamento b9859 do llama.cpp introduz a capacidade de carregar kernels binários pré-compilados de bibliotecas para OpenCL, direcionados especificamente para GPUs Adreno. Esta atualização também fornece binários para macOS, Linux, Windows, Android e openEuler em CPU, GPU e vários backends de acelerador.

Permite carregar bibliotecas de kernels binários via ggml-backend-dl para resolver dependências cíclicas.
Carrega kernels específicos como gemm_moe_mxfp4_f32_ns, q8_0, q4_0, q4_1 e q4_k moe gemm da biblioteca de kernels.
Sempre declara get_adreno_bin_kernel_func_t para suporte Adreno em OpenCL.
O suporte a macOS Apple Silicon com KleidiAI está desativado neste lançamento.

Esta melhoria melhora o desempenho do OpenCL habilitando kernels binários pré-compilados enquanto mantém a compatibilidade em uma ampla gama de plataformas de hardware.