O projeto llama.cpp lançou a versão b9862, com uma otimização de desempenho para a operação gated_delta_net e fornecendo binários pré-compilados para macOS, Linux, Windows, Android e openEuler.

  • Remove cópias redundantes de CUDA após o gated_delta_net detectando o padrão gated_delta_net -> view -> cpy.
  • Permite que o kernel GDN do CUDA escreva snapshots de estado diretamente no cache recorrente, pulando escritas intermediárias de cauda.
  • Desabilita o suporte ao KleidiAI para macOS Apple Silicon nesta versão.
  • Fornece binários para Ubuntu x64/arm64/s390x com backends de CPU, Vulkan, ROCm 7.2, OpenVINO e SYCL.
  • Inclui builds do Windows para CPU, OpenCL Adreno, CUDA 12/13, Vulkan, OpenVINO, SYCL e HIP.

Esta atualização melhora a eficiência de inferência em arquiteturas de GPU suportadas enquanto mantém ampla compatibilidade com vários sistemas operacionais e aceleradores de hardware.