O projeto llama.cpp lançou a versão b9876, que aborda uma falha crítica ao usar paralelismo de tensores combinado com especialistas Mixture of Experts (MoE) descarregados para a CPU.

  • Corrige um abortamento durante o aquecimento em modelos MoE causado por uma falha GGML_ASSERT em ggml-backend-meta.cpp.
  • Resolve o problema onde os tensores não contíguos espelhados para a saída do roteador MoE acionavam um erro de asserção.
  • Move a busca de split-state acima da asserção de contiguidade para permitir o caso espelhado tanto nas operações get_tensor quanto set_tensor.
  • Fornece binários para macOS (Apple Silicon e Intel), Linux, Android, Windows e openEuler através dos backends CPU, Vulkan, ROCm, CUDA, OpenVINO, SYCL e HIP.

Esta correção permite que os usuários executem modelos MoE com paralelismo de tensores e especialistas descarregados para a CPU sem encontrar falhas de asserção no backend.