La version b9850 de llama.cpp introduit des mises à jour spécifiques du support des modèles, notamment l'enregistrement du tenseur t_layer_inp pour Qwen3Next, la correction de l'affectation d'entrée dans la boucle de traitement des couches, et la résolution des problèmes DFLASH pour qwen-coder-next. Elle ajoute également un tenseur pour la normalisation de l'attention dans le modèle Qwen3.

  • Les binaires macOS Apple Silicon (arm64) sont disponibles, tandis que le support KleidiAI est désactivé.
  • Les builds Linux couvrent Ubuntu x64 et arm64 CPU, Vulkan, ROCm 7.2, OpenVINO, et les variantes SYCL FP32/FP16.
  • Des binaires Android arm64 CPU sont fournis pour les appareils mobiles.
  • Les versions Windows incluent les backends CPU, OpenCL Adreno, CUDA 12.4/13.3, Vulkan, OpenVINO, SYCL et HIP.
  • Les builds openEuler pour les architectures x86 et aarch64 avec support ACL Graph sont inclus.

Cette mise à jour offre aux utilisateurs une gestion corrigée des modèles de la série Qwen3 et des options d'accélération matérielle étendues sur plusieurs systèmes d'exploitation et architectures GPU.