llama.cpp 프로젝트는 버전 b9876을 출시하여 CPU 오프로드된 Mixture of Experts (MoE) 전문가와 텐서 병렬 처리를 결합할 때 발생하는 치명적인 크래시를 해결했습니다.
- ggml-backend-meta.cpp의 GGML_ASSERT 실패로 인해 MoE 모델에서 워밍업 중 중단이 발생하는 문제 수정.
- MoE 라우터 출력에 대한 미러링된 비연속 텐서가 어설션 오류를 유발하는 문제 해결.
- get_tensor 및 set_tensor 작업에서 미러링 케이스를 허용하기 위해 연속성 어설션 위에 split-state 조회를 이동.
- CPU, Vulkan, ROCm, CUDA, OpenVINO, SYCL, HIP 백엔드용 macOS (Apple Silicon 및 Intel), Linux, Android, Windows, openEuler 이진 파일 제공.
이 수정으로 사용자는 백엔드 어설션 오류를 겪지 않고 텐서 병렬 처리와 CPU 오프로드된 전문가와 함께 MoE 모델을 성공적으로 실행할 수 있습니다.