La versión b9789 de llama.cpp corrige la cuantización de MoE y proporciona binarios multiplataforma

El proyecto llama.cpp ha lanzado la versión b9789, que incluye una corrección crítica para la cuantización de modelos Mixture of Experts (MoE) con predicción multitoken. Esta actualización aborda problemas identificados en la solicitud de extracción #24986 para garantizar el manejo adecuado de estas arquitecturas de modelo específicas. El lanzamiento proporciona binarios precompilados para macOS Apple Silicon e Intel, así como un XCFramework para iOS. Los usuarios de Linux pueden descargar compilaciones para Ubuntu a través de los backends CPU, Vulkan, ROCm 7.2, OpenVINO y SYCL. El soporte para Windows incluye variantes de CPU, CUDA 12.4 y 13.3, Vulkan, OpenVINO, SYCL e HIP. También se admiten plataformas adicionales como Android arm64 y openEuler con configuraciones de hardware específicas.