Lançamento b9789 do llama.cpp corrige quantização MoE e fornece binários multiplataforma
O projeto llama.cpp lançou a versão b9789, que inclui uma correção crítica para a quantização de modelos Mixture of Experts (MoE) com previsão multitempo. Esta atualização aborda problemas identificados no pull request #24986 para garantir o tratamento adequado dessas arquiteturas de modelo específicas. O lançamento fornece binários pré-compilados para macOS Apple Silicon e Intel, além de um iOS XCFramework. Usuários do Linux podem baixar builds para Ubuntu nos backends CPU, Vulkan, ROCm 7.2, OpenVINO e SYCL. O suporte para Windows inclui variantes CPU, CUDA 12.4 e 13.3, Vulkan, OpenVINO, SYCL e HIP. Plataformas adicionais como Android arm64 e openEuler também são suportadas com configurações de hardware específicas.