O projeto llama.cpp lançou a versão b9851, que inclui uma correção para a CUDA para prevenir erros de truncamento inteiro e estouro no kernel flash_attn_mask_to_KV_max. Esta atualização aborda problemas relacionados aos passos da máscara KQ dentro do kernel especificado.

  • Binários para macOS Apple Silicon (arm64) estão disponíveis, enquanto o suporte ao KleidiAI está desabilitado.
  • As compilações para Linux cobrem Ubuntu x64 e arm64 para CPU, Vulkan, ROCm 7.2, OpenVINO e SYCL FP32/FP16.
  • Binários para Android arm64 (CPU) são fornecidos para dispositivos móveis.
  • Os lançamentos para Windows incluem variantes de CPU, OpenCL Adreno, CUDA 12/13, Vulkan, OpenVINO, SYCL e HIP.
  • As compilações para openEuler para arquiteturas x86 e aarch64 estão listadas, com algumas configurações desabilitadas.
  • Um binário de UI standalone também está incluído nos ativos do lançamento.

Este lançamento garante estabilidade para usuários da CUDA ao corrigir erros de cálculo e fornece binários pré-compilados abrangentes em principais sistemas operacionais e aceleradores de hardware.