llama.cpp 프로젝트는 버전 b9876을 출시하여 CPU 오프로드된 Mixture of Experts (MoE) 전문가와 텐서 병렬 처리를 결합할 때 발생하는 치명적인 크래시를 해결했습니다.

  • ggml-backend-meta.cpp의 GGML_ASSERT 실패로 인해 MoE 모델에서 워밍업 중 중단이 발생하는 문제 수정.
  • MoE 라우터 출력에 대한 미러링된 비연속 텐서가 어설션 오류를 유발하는 문제 해결.
  • get_tensor 및 set_tensor 작업에서 미러링 케이스를 허용하기 위해 연속성 어설션 위에 split-state 조회를 이동.
  • CPU, Vulkan, ROCm, CUDA, OpenVINO, SYCL, HIP 백엔드용 macOS (Apple Silicon 및 Intel), Linux, Android, Windows, openEuler 이진 파일 제공.

이 수정으로 사용자는 백엔드 어설션 오류를 겪지 않고 텐서 병렬 처리와 CPU 오프로드된 전문가와 함께 MoE 모델을 성공적으로 실행할 수 있습니다.