El proyecto llama.cpp ha lanzado la versión b9851, que incluye una corrección para CUDA que previene errores de truncamiento entero y desbordamiento en el kernel flash_attn_mask_to_KV_max. Esta actualización aborda problemas relacionados con los pasos de la máscara KQ dentro del kernel especificado.

  • Están disponibles binarios para macOS Apple Silicon (arm64), mientras que el soporte de KleidiAI está desactivado.
  • Las compilaciones de Linux cubren Ubuntu x64 y arm64 para CPU, Vulkan, ROCm 7.2, OpenVINO y SYCL FP32/FP16.
  • Se proporcionan binarios Android arm64 (CPU) para dispositivos móviles.
  • Las versiones para Windows incluyen variantes de CPU, OpenCL Adreno, CUDA 12/13, Vulkan, OpenVINO, SYCL e HIP.
  • Se enumeran compilaciones de openEuler para las arquitecturas x86 y aarch64, con algunas configuraciones desactivadas.
  • También se incluye un binario de interfaz de usuario independiente en los activos del lanzamiento.

Este lanzamiento garantiza la estabilidad para usuarios de CUDA al corregir errores de cálculo y proporciona binarios precompilados completos en los principales sistemas operativos y aceleradores de hardware.