El proyecto llama.cpp ha lanzado la versión b9851, que incluye una corrección para CUDA que previene errores de truncamiento entero y desbordamiento en el kernel flash_attn_mask_to_KV_max. Esta actualización aborda problemas relacionados con los pasos de la máscara KQ dentro del kernel especificado.
- Están disponibles binarios para macOS Apple Silicon (arm64), mientras que el soporte de KleidiAI está desactivado.
- Las compilaciones de Linux cubren Ubuntu x64 y arm64 para CPU, Vulkan, ROCm 7.2, OpenVINO y SYCL FP32/FP16.
- Se proporcionan binarios Android arm64 (CPU) para dispositivos móviles.
- Las versiones para Windows incluyen variantes de CPU, OpenCL Adreno, CUDA 12/13, Vulkan, OpenVINO, SYCL e HIP.
- Se enumeran compilaciones de openEuler para las arquitecturas x86 y aarch64, con algunas configuraciones desactivadas.
- También se incluye un binario de interfaz de usuario independiente en los activos del lanzamiento.
Este lanzamiento garantiza la estabilidad para usuarios de CUDA al corregir errores de cálculo y proporciona binarios precompilados completos en los principales sistemas operativos y aceleradores de hardware.