la versión b9855 de llama.cpp añade optimización AVX2 nvfp4 y nuevos binarios

El proyecto llama.cpp ha lanzado la versión b9855, que introduce una optimización AVX2 para el producto punto nvfp4 utilizando una Tabla de Búsqueda (LUT) UE4M3 dentro del backend ggml-cpu.

Están disponibles compilaciones para macOS Apple Silicon e Intel junto con un XCFramework para iOS.
Los binarios de Linux soportan las arquitecturas Ubuntu x64, arm64 y s390x a través de CPU, Vulkan, ROCm 7.2, OpenVINO y SYCL (FP32/FP16).
Las versiones de Windows incluyen backends para CPU, OpenCL Adreno, CUDA 12.4 y 13.3, Vulkan, OpenVINO, SYCL e HIP.
Se proporcionan binarios de CPU arm64 para Android para despliegue móvil.
El soporte de KleidiAI en macOS Apple Silicon está deshabilitado en esta versión.

Esta actualización proporciona a los usuarios capacidades de inferencia optimizadas para configuraciones de hardware específicas y amplía el rango de aceleradores compatibles entre los principales sistemas operativos.