La version b9789 de llama.cpp corrige la quantification MoE et fournit des binaires multi-plateformes

Le projet llama.cpp a publié la version b9789, qui inclut une correction critique pour la quantification des modèles Mixture of Experts (MoE) avec prédiction multi-jeton. Cette mise à jour résout les problèmes identifiés dans la pull request #24986 afin de garantir un traitement approprié de ces architectures de modèles spécifiques. La version fournit des binaires préconstruits pour macOS Apple Silicon et Intel, ainsi qu'un iOS XCFramework. Les utilisateurs Linux peuvent télécharger des builds pour Ubuntu sur les backends CPU, Vulkan, ROCm 7.2, OpenVINO et SYCL. Le support Windows inclut les variantes CPU, CUDA 12.4 et 13.3, Vulkan, OpenVINO, SYCL et HIP. Des plateformes supplémentaires telles que Android arm64 et openEuler sont également prises en charge avec des configurations matérielles spécifiques.