La release b9859 de llama.cpp ajoute le support des noyaux précompilés OpenCL

La release b9859 de llama.cpp introduit la capacité de charger des noyaux binaires précompilés depuis des bibliothèques pour OpenCL, ciblant spécifiquement les GPU Adreno. Cette mise à jour fournit également des binaires pour macOS, Linux, Windows, Android et openEuler sur CPU, GPU et divers backends d'accélérateur.

Permet le chargement de bibliothèques de noyaux binaires via ggml-backend-dl pour résoudre les dépendances cycliques.
Charge des noyaux spécifiques tels que gemm_moe_mxfp4_f32_ns, q8_0, q4_0, q4_1 et q4_k moe gemm depuis la bibliothèque de noyaux.
Déclare toujours get_adreno_bin_kernel_func_t pour le support Adreno OpenCL.
macOS Apple Silicon avec KleidiAI est désactivé dans cette release.

Cette amélioration optimise les performances OpenCL en activant les noyaux binaires précompilés tout en maintenant la compatibilité sur une large gamme de plateformes matérielles.