llama.cpp의 릴리스 b9788은 SYCL 백엔드에서 --split-mode tensor 플래그를 통해 텐서 병렬성에 대한 지원을 도입합니다. 이 구현은 meta-백엔드에 comm_init, comm_free 및 comm_allreduce_tensor 함수를 추가하여 듀얼 GPU 간 통신을 가능하게 합니다. 두 장치의 경우, 작은 텐서는 FP32 직접 memcpy로, 큰 텐서는 BF16 압축으로 전환하는 링 all-reduce 전략을 사용합니다. 이 코드는 단일 프로세스당 단일 장치라는 제한 사항으로 인해 OneCCL을 피하고 대신 영구 버퍼를 사용하여 SYCL 풀 불변성을 유지합니다. 듀얼 Intel Arc Pro B70 GPU에서의 성능 테스트는 Llama-3.3-70B 및 Qwen3-Coder-Next-80B-A3B 모델에 대해 레이어 모드 대비 상당한 속도 향상을 보여줍니다. 이 업데이트에는 CPU, CUDA, ROCm, Vulkan 및 SYCL 타겟을 위한 macOS, Linux, Windows, Android 및 openEuler용 새로운 바이너리가 포함되어 있습니다.
llama.cpp b9788, 듀얼 GPU 환경용 SYCL 텐서 병렬성 추가
번역 English → 한국어