la versión b9851 de llama.cpp corrige la truncación entera de CUDA y proporciona binarios

El proyecto llama.cpp ha lanzado la versión b9851, que incluye una corrección para CUDA que previene errores de truncamiento entero y desbordamiento en el kernel flash_attn_mask_to_KV_max. Esta actualización aborda problemas relacionados con los pasos de la máscara KQ dentro del kernel especificado.

Están disponibles binarios para macOS Apple Silicon (arm64), mientras que el soporte de KleidiAI está desactivado.
Las compilaciones de Linux cubren Ubuntu x64 y arm64 para CPU, Vulkan, ROCm 7.2, OpenVINO y SYCL FP32/FP16.
Se proporcionan binarios Android arm64 (CPU) para dispositivos móviles.
Las versiones para Windows incluyen variantes de CPU, OpenCL Adreno, CUDA 12/13, Vulkan, OpenVINO, SYCL e HIP.
Se enumeran compilaciones de openEuler para las arquitecturas x86 y aarch64, con algunas configuraciones desactivadas.
También se incluye un binario de interfaz de usuario independiente en los activos del lanzamiento.

Este lanzamiento garantiza la estabilidad para usuarios de CUDA al corregir errores de cálculo y proporciona binarios precompilados completos en los principales sistemas operativos y aceleradores de hardware.