llama.cpp 的 b9788 版本在 SYCL 后端中通过 --split-mode tensor 标志引入了对张量并行的支持。该实现通过在 meta-backend 中添加 comm_init、comm_free 和 comm_allreduce_tensor 函数,实现了双 GPU 通信。对于两个设备,它使用环形 all-reduce 策略,对小张量采用 FP32 直接 memcpy,对较大的张量则采用 BF16 压缩。由于 OneCCL 存在每个进程只能使用单个设备的限制,代码避免了使用 OneCCL,而是使用持久化缓冲区来维持 SYCL 池的不变性。在双 Intel Arc Pro B70 GPU 上进行的性能测试显示,对于 Llama-3.3-70B 和 Qwen3-Coder-Next-80B-A3B 模型,与 layer 模式相比有显著的速度提升。此次更新包括适用于 macOS、Linux、Windows、Android 和 openEuler 的新二进制文件,覆盖 CPU、CUDA、ROCm、Vulkan 和 SYCL 目标平台。