la version b9852 de llama.cpp ajoute le support de la quantisation q1_0 via OpenCL

Le projet llama.cpp a publié la version b9852, introduisant un support initial d'OpenCL pour le format de quantisation q1_0. Cette mise à jour inclut des capacités générales pour q1_0 et des implémentations spécifiques de GEMM/GEMV Adreno pour les appareils OpenCL.

Support initial d'OpenCL pour la quantisation q1_0
Ajout des noyaux GEMM/GEMV Adreno pour q1_0
Binaires macOS Apple Silicon (arm64) fournis
KleidiAI sur macOS Apple Silicon est désactivé dans cette version
Builds Ubuntu disponibles pour CPU, Vulkan, ROCm 7.2, OpenVINO et SYCL
Les builds Windows incluent CUDA 12/13, Vulkan, OpenVINO, SYCL, HIP et l'Adreno OpenCL
Binaires Android arm64 (CPU) publiés
Support openEuler pour les architectures x86 et aarch64 avec ACL Graph activé

Cette version élargit la compatibilité matérielle en permettant une inférence q1_0 efficace sur les appareils OpenCL et fournit des binaires mis à jour sur plusieurs systèmes d'exploitation et accélérateurs.