O projeto llama.cpp lançou a versão b9851, que inclui uma correção para a CUDA para prevenir erros de truncamento inteiro e estouro no kernel flash_attn_mask_to_KV_max. Esta atualização aborda problemas relacionados aos passos da máscara KQ dentro do kernel especificado.
- Binários para macOS Apple Silicon (arm64) estão disponíveis, enquanto o suporte ao KleidiAI está desabilitado.
- As compilações para Linux cobrem Ubuntu x64 e arm64 para CPU, Vulkan, ROCm 7.2, OpenVINO e SYCL FP32/FP16.
- Binários para Android arm64 (CPU) são fornecidos para dispositivos móveis.
- Os lançamentos para Windows incluem variantes de CPU, OpenCL Adreno, CUDA 12/13, Vulkan, OpenVINO, SYCL e HIP.
- As compilações para openEuler para arquiteturas x86 e aarch64 estão listadas, com algumas configurações desabilitadas.
- Um binário de UI standalone também está incluído nos ativos do lançamento.
Este lançamento garante estabilidade para usuários da CUDA ao corrigir erros de cálculo e fornece binários pré-compilados abrangentes em principais sistemas operacionais e aceleradores de hardware.