Le projet llama.cpp a publié la version b9852, introduisant un support initial d'OpenCL pour le format de quantisation q1_0. Cette mise à jour inclut des capacités générales pour q1_0 et des implémentations spécifiques de GEMM/GEMV Adreno pour les appareils OpenCL.

  • Support initial d'OpenCL pour la quantisation q1_0
  • Ajout des noyaux GEMM/GEMV Adreno pour q1_0
  • Binaires macOS Apple Silicon (arm64) fournis
  • KleidiAI sur macOS Apple Silicon est désactivé dans cette version
  • Builds Ubuntu disponibles pour CPU, Vulkan, ROCm 7.2, OpenVINO et SYCL
  • Les builds Windows incluent CUDA 12/13, Vulkan, OpenVINO, SYCL, HIP et l'Adreno OpenCL
  • Binaires Android arm64 (CPU) publiés
  • Support openEuler pour les architectures x86 et aarch64 avec ACL Graph activé

Cette version élargit la compatibilité matérielle en permettant une inférence q1_0 efficace sur les appareils OpenCL et fournit des binaires mis à jour sur plusieurs systèmes d'exploitation et accélérateurs.