Lanzamiento b9842 de llama.cpp: deduplicación de presets y entradas de modelo en caché en /v1/models

El lanzamiento b9842 de llama.cpp introduce un cambio para deduplicar las entradas de preset y de modelo en caché en el endpoint /v1/models. Esta actualización está firmada por Adrien Gallouët de Hugging Face.

Están disponibles binarios para macOS Apple Silicon (arm64), mientras que el soporte de KleidiAI permanece deshabilitado.
Las compilaciones para Linux incluyen versiones de CPU Ubuntu x64/arm64/s390x, Vulkan, ROCm 7.2, OpenVINO y variantes SYCL FP32/FP16.
Se proporcionan binarios Android arm64 (CPU) para despliegue móvil.
Las versiones para Windows cubren CPU x64/arm64, OpenCL Adreno, CUDA 12.4/13.3, Vulkan, OpenVINO, SYCL y backends HIP.
El soporte de openEuler incluye compilaciones x86 y aarch64 con ACL Graph para chips 310p y 910b, aunque el openEuler estándar está deshabilitado.
También se incluye un binario de UI independiente en los activos del lanzamiento.

Este lanzamiento proporciona binarios actualizados en múltiples plataformas y aceleradores de hardware, garantizando la compatibilidad con varias arquitecturas de CPU y GPU.