llama.cpp b9850 release : corrections pour Qwen3 et nouveaux binaires

La version b9850 de llama.cpp introduit des mises à jour spécifiques du support des modèles, notamment l'enregistrement du tenseur t_layer_inp pour Qwen3Next, la correction de l'affectation d'entrée dans la boucle de traitement des couches, et la résolution des problèmes DFLASH pour qwen-coder-next. Elle ajoute également un tenseur pour la normalisation de l'attention dans le modèle Qwen3.

Les binaires macOS Apple Silicon (arm64) sont disponibles, tandis que le support KleidiAI est désactivé.
Les builds Linux couvrent Ubuntu x64 et arm64 CPU, Vulkan, ROCm 7.2, OpenVINO, et les variantes SYCL FP32/FP16.
Des binaires Android arm64 CPU sont fournis pour les appareils mobiles.
Les versions Windows incluent les backends CPU, OpenCL Adreno, CUDA 12.4/13.3, Vulkan, OpenVINO, SYCL et HIP.
Les builds openEuler pour les architectures x86 et aarch64 avec support ACL Graph sont inclus.

Cette mise à jour offre aux utilisateurs une gestion corrigée des modèles de la série Qwen3 et des options d'accélération matérielle étendues sur plusieurs systèmes d'exploitation et architectures GPU.