llama.cpp b9842 release : déduplication des presets et entrées de modèle en cache dans /v1/models

La version b9842 de llama.cpp introduit un changement pour dédupliquer les presets et les entrées de modèle en cache dans le point de terminaison /v1/models. Cette mise à jour est validée par Adrien Gallouët de Hugging Face.

Les binaires macOS Apple Silicon (arm64) sont disponibles, tandis que le support KleidiAI reste désactivé.
Les builds Linux incluent les versions CPU Ubuntu x64/arm64/s390x, Vulkan, ROCm 7.2, OpenVINO et les variantes SYCL FP32/FP16.
Des binaires Android arm64 (CPU) sont fournis pour le déploiement mobile.
Les versions Windows couvrent les CPU x64/arm64, OpenCL Adreno, CUDA 12.4/13.3, Vulkan, OpenVINO, SYCL et les backends HIP.
Le support openEuler inclut les builds x86 et aarch64 avec ACL Graph pour les puces 310p et 910b, bien que le openEuler standard soit désactivé.
Un binaire d'interface utilisateur autonome est également inclus dans les actifs de la version.

Cette version fournit des binaires mis à jour sur plusieurs plateformes et accélérateurs matériels, garantissant la compatibilité avec diverses architectures CPU et GPU.