Le projet llama.cpp a publié la version b9876, qui résout un crash critique lors de l'utilisation du parallélisme tensoriel combiné à des experts Mixture of Experts (MoE) déchargés sur le CPU.

  • Correction d'un arrêt pendant l'échauffement sur les modèles MoE causé par un échec de GGML_ASSERT dans ggml-backend-meta.cpp.
  • Résolution du problème où les tenseurs non contigus miroirs pour la sortie du routeur MoE déclenchaient une erreur d'assertion.
  • Déplacement de la recherche split-state au-dessus de l'assertion de continuité pour autoriser le cas miroir dans les opérations get_tensor et set_tensor.
  • Fourniture de binaires pour macOS (Apple Silicon et Intel), Linux, Android, Windows et openEuler sur les backends CPU, Vulkan, ROCm, CUDA, OpenVINO, SYCL et HIP.

Cette correction permet aux utilisateurs d'exécuter avec succès des modèles MoE avec un parallélisme tensoriel et des experts déchargés sur le CPU sans rencontrer d'échecs d'assertion du backend.