Lançamento b9851 do llama.cpp corrige truncamento inteiro da CUDA e fornece binários

O projeto llama.cpp lançou a versão b9851, que inclui uma correção para a CUDA para prevenir erros de truncamento inteiro e estouro no kernel flash_attn_mask_to_KV_max. Esta atualização aborda problemas relacionados aos passos da máscara KQ dentro do kernel especificado.

Binários para macOS Apple Silicon (arm64) estão disponíveis, enquanto o suporte ao KleidiAI está desabilitado.
As compilações para Linux cobrem Ubuntu x64 e arm64 para CPU, Vulkan, ROCm 7.2, OpenVINO e SYCL FP32/FP16.
Binários para Android arm64 (CPU) são fornecidos para dispositivos móveis.
Os lançamentos para Windows incluem variantes de CPU, OpenCL Adreno, CUDA 12/13, Vulkan, OpenVINO, SYCL e HIP.
As compilações para openEuler para arquiteturas x86 e aarch64 estão listadas, com algumas configurações desabilitadas.
Um binário de UI standalone também está incluído nos ativos do lançamento.

Este lançamento garante estabilidade para usuários da CUDA ao corrigir erros de cálculo e fornece binários pré-compilados abrangentes em principais sistemas operacionais e aceleradores de hardware.