Выпуск llama.cpp b9789 исправляет квантование MoE и предоставляет бинарные файлы для нескольких платформ

Проект llama.cpp выпустил версию b9789, которая включает критическое исправление для квантования моделей Mixture of Experts (MoE) с многозадачным предсказанием. Это обновление устраняет проблемы, выявленные в pull request #24986, чтобы обеспечить корректную обработку этих специфических архитектур моделей. Выпуск предоставляет предварительно собранные бинарные файлы для macOS на базе Apple Silicon и Intel, а также iOS XCFramework. Пользователи Linux могут загрузить сборки для Ubuntu с поддержкой бэкендов CPU, Vulkan, ROCm 7.2, OpenVINO и SYCL. Поддержка Windows включает варианты для CPU, CUDA 12.4 и 13.3, Vulkan, OpenVINO, SYCL и HIP. Дополнительные платформы, такие как Android arm64 и openEuler, также поддерживаются при наличии конкретных аппаратных конфигураций.