Lançamento do llama.cpp b9862: otimização de CUDA e binários multiplataforma

O projeto llama.cpp lançou a versão b9862, com uma otimização de desempenho para a operação gated_delta_net e fornecendo binários pré-compilados para macOS, Linux, Windows, Android e openEuler.

Remove cópias redundantes de CUDA após o gated_delta_net detectando o padrão gated_delta_net -> view -> cpy.
Permite que o kernel GDN do CUDA escreva snapshots de estado diretamente no cache recorrente, pulando escritas intermediárias de cauda.
Desabilita o suporte ao KleidiAI para macOS Apple Silicon nesta versão.
Fornece binários para Ubuntu x64/arm64/s390x com backends de CPU, Vulkan, ROCm 7.2, OpenVINO e SYCL.
Inclui builds do Windows para CPU, OpenCL Adreno, CUDA 12/13, Vulkan, OpenVINO, SYCL e HIP.

Esta atualização melhora a eficiência de inferência em arquiteturas de GPU suportadas enquanto mantém ampla compatibilidade com vários sistemas operacionais e aceleradores de hardware.