O projeto llama.cpp lançou a versão b9862, com uma otimização de desempenho para a operação gated_delta_net e fornecendo binários pré-compilados para macOS, Linux, Windows, Android e openEuler.
- Remove cópias redundantes de CUDA após o gated_delta_net detectando o padrão gated_delta_net -> view -> cpy.
- Permite que o kernel GDN do CUDA escreva snapshots de estado diretamente no cache recorrente, pulando escritas intermediárias de cauda.
- Desabilita o suporte ao KleidiAI para macOS Apple Silicon nesta versão.
- Fornece binários para Ubuntu x64/arm64/s390x com backends de CPU, Vulkan, ROCm 7.2, OpenVINO e SYCL.
- Inclui builds do Windows para CPU, OpenCL Adreno, CUDA 12/13, Vulkan, OpenVINO, SYCL e HIP.
Esta atualização melhora a eficiência de inferência em arquiteturas de GPU suportadas enquanto mantém ampla compatibilidade com vários sistemas operacionais e aceleradores de hardware.