llama.cpp b9788がデュアルGPU環境向けにSYCLテンソル並列化を追加

llama.cppのリリースb9788は、SYCLバックエンドにおいて--split-mode tensorフラグ経由でテンソル並列化のサポートを導入しました。この実装は、meta-backendにcomm_init、comm_free、およびcomm_allreduce_tensor関数を追加することで、デュアルGPU間の通信を可能にします。2つのデバイスでは、小さなテンソルにはFP32の直接memcpyを、大きなテンソルにはBF16圧縮を使用するリングアールリデューズ戦略を採用しています。本コードは、プロセスあたりのシングルデバイスという制限があるOneCCLを回避し、代わりに永続バッファを使用してSYCLプールの不変条件を維持します。デュアルIntel Arc Pro B70 GPUでのパフォーマンステストでは、Llama-3.3-70BおよびQwen3-Coder-Next-80B-A3Bモデルにおいてレイヤーモードと比較して大幅な高速化が確認されました。本アップデートには、CPU、CUDA、ROCm、Vulkan、SYCLの各ターゲット向けに、macOS、Linux、Windows、Android、openEuler用の新しいバイナリが含まれています。