La versión b9859 de llama.cpp añade soporte para núcleos precompilados de OpenCL

La versión b9859 de llama.cpp introduce la capacidad de cargar núcleos binarios precompilados desde bibliotecas para OpenCL, orientados específicamente a GPUs Adreno. Esta actualización también proporciona binarios para macOS, Linux, Windows, Android y openEuler en CPU, GPU y varios backends de aceleración.

Permite cargar bibliotecas de núcleos binarios mediante ggml-backend-dl para resolver dependencias cíclicas.
Carga núcleos específicos como gemm_moe_mxfp4_f32_ns, q8_0, q4_0, q4_1 y q4_k moe gemm desde la biblioteca de núcleos.
Siempre declara get_adreno_bin_kernel_func_t para el soporte de Adreno en OpenCL.
El soporte de macOS Apple Silicon con KleidiAI está desactivado en esta versión.

Esta mejora mejora el rendimiento de OpenCL habilitando núcleos binarios precompilados mientras mantiene la compatibilidad en una amplia gama de plataformas de hardware.