llama.cpp b9876 исправляет параллелизм тензоров + краш -ncmoe на моделях MoE

Проект llama.cpp выпустил версию b9876, которая устраняет критический сбой при использовании параллелизма тензоров в сочетании с экспертами Mixture of Experts (MoE), выгруженными на CPU.

Исправляет аварийное завершение во время разминки на моделях MoE, вызванное ошибкой GGML_ASSERT в ggml-backend-meta.cpp.
Устраняет проблему, при которой зеркальные неконтекстные тензоры для вывода маршрутизатора MoE вызывали ошибку утверждения.
Перемещает поиск split-state выше утверждения о контекстности, чтобы разрешить зеркальный случай как в операциях get_tensor, так и set_tensor.
Предоставляет бинарные файлы для macOS (Apple Silicon и Intel), Linux, Android, Windows и openEuler для бэкендов CPU, Vulkan, ROCm, CUDA, OpenVINO, SYCL и HIP.

Это исправление позволяет пользователям успешно запускать модели MoE с параллелизмом тензоров и экспертами, выгруженными на CPU, без возникновения ошибок утверждения в бэкенде.