llama.cpp b9789 リリースは MoE 量子化を修正し、マルチプラットフォームバイナリを提供

llama.cpp プロジェクトは、マルチトークン予測を用いた Mixture of Experts (MoE) モデルの量子化に関する重要な修正を含むバージョン b9789 をリリースしました。このアップデートは、これらの特定のモデルアーキテクチャを適切に処理するために、プルリクエスト #24986 で特定された問題を解決します。本リリースでは、macOS 向け Apple Silicon および Intel の事前ビルド済みバイナリ、および iOS 向け XCFramework が提供されます。Linux ユーザーは、CPU、Vulkan、ROCm 7.2、OpenVINO、SYCL バックエンド向けの Ubuntu ビルドをダウンロードできます。Windows サポートには、CPU、CUDA 12.4 および 13.3、Vulkan、OpenVINO、SYCL、HIP の各バリアントが含まれます。Android arm64 や openEuler などの追加プラットフォームも、特定のハードウェア構成でサポートされています。