llama.cpp b9788 为双 GPU 配置添加 SYCL 张量并行支持

llama.cpp 的 b9788 版本在 SYCL 后端中通过 --split-mode tensor 标志引入了对张量并行的支持。该实现通过在 meta-backend 中添加 comm_init、comm_free 和 comm_allreduce_tensor 函数，实现了双 GPU 通信。对于两个设备，它使用环形 all-reduce 策略，对小张量采用 FP32 直接 memcpy，对较大的张量则采用 BF16 压缩。由于 OneCCL 存在每个进程只能使用单个设备的限制，代码避免了使用 OneCCL，而是使用持久化缓冲区来维持 SYCL 池的不变性。在双 Intel Arc Pro B70 GPU 上进行的性能测试显示，对于 Llama-3.3-70B 和 Qwen3-Coder-Next-80B-A3B 模型，与 layer 模式相比有显著的速度提升。此次更新包括适用于 macOS、Linux、Windows、Android 和 openEuler 的新二进制文件，覆盖 CPU、CUDA、ROCm、Vulkan 和 SYCL 目标平台。