llama.cpp b9876 corrige paralelismo de tensores + crash -ncmoe em modelos MoE

O projeto llama.cpp lançou a versão b9876, que aborda uma falha crítica ao usar paralelismo de tensores combinado com especialistas Mixture of Experts (MoE) descarregados para a CPU.

Corrige um abortamento durante o aquecimento em modelos MoE causado por uma falha GGML_ASSERT em ggml-backend-meta.cpp.
Resolve o problema onde os tensores não contíguos espelhados para a saída do roteador MoE acionavam um erro de asserção.
Move a busca de split-state acima da asserção de contiguidade para permitir o caso espelhado tanto nas operações get_tensor quanto set_tensor.
Fornece binários para macOS (Apple Silicon e Intel), Linux, Android, Windows e openEuler através dos backends CPU, Vulkan, ROCm, CUDA, OpenVINO, SYCL e HIP.

Esta correção permite que os usuários executem modelos MoE com paralelismo de tensores e especialistas descarregados para a CPU sem encontrar falhas de asserção no backend.