O projeto llama.cpp lançou a versão b9876, que aborda uma falha crítica ao usar paralelismo de tensores combinado com especialistas Mixture of Experts (MoE) descarregados para a CPU.
- Corrige um abortamento durante o aquecimento em modelos MoE causado por uma falha GGML_ASSERT em ggml-backend-meta.cpp.
- Resolve o problema onde os tensores não contíguos espelhados para a saída do roteador MoE acionavam um erro de asserção.
- Move a busca de split-state acima da asserção de contiguidade para permitir o caso espelhado tanto nas operações get_tensor quanto set_tensor.
- Fornece binários para macOS (Apple Silicon e Intel), Linux, Android, Windows e openEuler através dos backends CPU, Vulkan, ROCm, CUDA, OpenVINO, SYCL e HIP.
Esta correção permite que os usuários executem modelos MoE com paralelismo de tensores e especialistas descarregados para a CPU sem encontrar falhas de asserção no backend.