Проект llama.cpp выпустил версию b9876, которая устраняет критический сбой при использовании параллелизма тензоров в сочетании с экспертами Mixture of Experts (MoE), выгруженными на CPU.

  • Исправляет аварийное завершение во время разминки на моделях MoE, вызванное ошибкой GGML_ASSERT в ggml-backend-meta.cpp.
  • Устраняет проблему, при которой зеркальные неконтекстные тензоры для вывода маршрутизатора MoE вызывали ошибку утверждения.
  • Перемещает поиск split-state выше утверждения о контекстности, чтобы разрешить зеркальный случай как в операциях get_tensor, так и set_tensor.
  • Предоставляет бинарные файлы для macOS (Apple Silicon и Intel), Linux, Android, Windows и openEuler для бэкендов CPU, Vulkan, ROCm, CUDA, OpenVINO, SYCL и HIP.

Это исправление позволяет пользователям успешно запускать модели MoE с параллелизмом тензоров и экспертами, выгруженными на CPU, без возникновения ошибок утверждения в бэкенде.