Lançamento b9842 do llama.cpp: predefinição de deduplicação e entradas de modelo em cache em /v1/models

O lançamento b9842 do llama.cpp introduz uma alteração para duplicar entradas de predefinição e modelos em cache no endpoint /v1/models. Esta atualização é aprovada por Adrien Gallouët, da Hugging Face.

Binários para macOS Apple Silicon (arm64) estão disponíveis, enquanto o suporte ao KleidiAI permanece desativado.
As compilações para Linux incluem versões de CPU Ubuntu x64/arm64/s390x, Vulkan, ROCm 7.2, OpenVINO e variantes SYCL FP32/FP16.
Binários Android arm64 (CPU) são fornecidos para implantação em dispositivos móveis.
Os lançamentos para Windows abrangem CPUs x64/arm64, OpenCL Adreno, CUDA 12.4/13.3, Vulkan, OpenVINO, SYCL e backends HIP.
O suporte ao openEuler inclui compilações x86 e aarch64 com ACL Graph para chips 310p e 910b, embora o openEuler padrão esteja desativado.
Um binário de UI standalone também está incluído nos ativos do lançamento.

Este lançamento fornece binários atualizados em várias plataformas e aceleradores de hardware, garantindo compatibilidade com diversas arquiteturas de CPU e GPU.