El proyecto llama.cpp lanzó la versión b9876, que aborda un fallo crítico al usar paralelismo de tensores combinado con expertos Mixture of Experts (MoE) descargados a la CPU.

  • Corrige una abortación durante el calentamiento en modelos MoE causada por un fallo GGML_ASSERT en ggml-backend-meta.cpp.
  • Resuelve el problema donde los tensores no contiguos espejados para la salida del enrutador MoE desencadenaban un error de aserción.
  • Mueve la búsqueda de split-state por encima de la aserción de contigüidad para permitir el caso espejado tanto en las operaciones get_tensor como set_tensor.
  • Proporciona binarios para macOS (Apple Silicon e Intel), Linux, Android, Windows y openEuler a través de los backends CPU, Vulkan, ROCm, CUDA, OpenVINO, SYCL y HIP.

Esta corrección permite a los usuarios ejecutar modelos MoE con paralelismo de tensores y expertos descargados a la CPU sin encontrar fallos de aserción en el backend.