Lanzamiento de llama.cpp b9862: optimización de CUDA y binarios multiplataforma

El proyecto llama.cpp ha lanzado la versión b9862, con una optimización de rendimiento para la operación gated_delta_net y proporcionando binarios precompilados para macOS, Linux, Windows, Android y openEuler.

Elimina copias redundantes de CUDA después de gated_delta_net detectando el patrón gated_delta_net -> view -> cpy.
Permite que el kernel GDN de CUDA escriba instantáneas de estado directamente en la caché recurrente, omitiendo las escrituras intermedias de cola.
Deshabilita el soporte de KleidiAI para macOS Apple Silicon en esta versión.
Proporciona binarios para Ubuntu x64/arm64/s390x con backends de CPU, Vulkan, ROCm 7.2, OpenVINO y SYCL.
Incluye compilaciones de Windows para CPU, OpenCL Adreno, CUDA 12/13, Vulkan, OpenVINO, SYCL e HIP.

Esta actualización mejora la eficiencia de inferencia en arquitecturas de GPU compatibles mientras mantiene una amplia compatibilidad con varios sistemas operativos y aceleradores de hardware.