Proyek llama.cpp merilis versi b9876, yang mengatasi crash kritis saat menggunakan paralelisme tensor yang dikombinasikan dengan ahli Mixture of Experts (MoE) yang di-offload ke CPU.

  • Memperbaiki abort selama warm-up pada model MoE yang disebabkan oleh kegagalan GGML_ASSERT di ggml-backend-meta.cpp.
  • Menyelesaikan masalah di mana tensor non-kontigu ter-mirror untuk output router MoE memicu kesalahan assertion.
  • Memindahkan lookup split-state di atas assertion kontiguitas untuk memungkinkan kasus mirror dalam operasi get_tensor dan set_tensor.
  • Menyediakan biner untuk macOS (Apple Silicon dan Intel), Linux, Android, Windows, dan openEuler di berbagai backend CPU, Vulkan, ROCm, CUDA, OpenVINO, SYCL, dan HIP.

Perbaikan ini memungkinkan pengguna menjalankan model MoE dengan paralelisme tensor dan ahli yang di-offload ke CPU tanpa mengalami kegagalan assertion backend.