El proyecto llama.cpp ha lanzado la versión b9862, con una optimización de rendimiento para la operación gated_delta_net y proporcionando binarios precompilados para macOS, Linux, Windows, Android y openEuler.

  • Elimina copias redundantes de CUDA después de gated_delta_net detectando el patrón gated_delta_net -> view -> cpy.
  • Permite que el kernel GDN de CUDA escriba instantáneas de estado directamente en la caché recurrente, omitiendo las escrituras intermedias de cola.
  • Deshabilita el soporte de KleidiAI para macOS Apple Silicon en esta versión.
  • Proporciona binarios para Ubuntu x64/arm64/s390x con backends de CPU, Vulkan, ROCm 7.2, OpenVINO y SYCL.
  • Incluye compilaciones de Windows para CPU, OpenCL Adreno, CUDA 12/13, Vulkan, OpenVINO, SYCL e HIP.

Esta actualización mejora la eficiencia de inferencia en arquitecturas de GPU compatibles mientras mantiene una amplia compatibilidad con varios sistemas operativos y aceleradores de hardware.