llama.cpp プロジェクトはバージョン b9876 をリリースし、CPUオフロードされた Mixture of Experts (MoE) エキスパートとテンソル並列処理を併用した際に発生する重大なクラッシュ問題を解決しました。
- ggml-backend-meta.cpp 内の GGML_ASSERT 失敗により MoE モデルのウォームアップ中にアボートが発生する問題を修正。
- MoE ルーター出力のミラー化された非連続テンソルがアサーションエラーを引き起こす問題を解決。
- get_tensor および set_tensor 操作でミラー化ケースを許可するため、分割状態の参照を連続性アサーションの上に移動。
- CPU、Vulkan、ROCm、CUDA、OpenVINO、SYCL、HIP の各バックエンド向けに、macOS (Apple Silicon および Intel)、Linux、Android、Windows、openEuler 用のバイナリを提供。
この修正により、ユーザーはバックエンドのアサーションエラーに遭遇することなく、テンソル並列処理と CPUオフロードされたエキスパートを使用して MoE モデルを正常に実行できるようになります。