llama.cpp b9788 में dual-GPU सेटअप के लिए SYCL tensor parallelism जोड़ा गया

llama.cpp का release b9788 SYCL backend में --split-mode tensor फ्लैग के माध्यम से tensor parallelism के लिए समर्थन पेश करता है। यह कार्यान्वयन meta-backend में comm_init, comm_free, और comm_allreduce_tensor फ़ंक्शंस जोड़कर dual-GPU संचार को सक्षम बनाता है। दो डिवाइसों के लिए, यह ring all-reduce रणनीति का उपयोग करता है जो छोटे tensors के लिए FP32 direct memcpy और बड़े tensors के लिए BF16 compression के बीच स्विच करता है। OneCCL से बचा जाता है क्योंकि इसकी single-device-per-process सीमा है, इसके बजाय SYCL pool invariants बनाए रखने के लिए persistent buffers का उपयोग किया जाता है। dual Intel Arc Pro B70 GPUs पर प्रदर्शन परीक्षण Llama-3.3-70B और Qwen3-Coder-Next-80B-A3B मॉडल्स के लिए layer mode की तुलना में महत्वपूर्ण गति वृद्धि दिखाते हैं। अपडेट में CPU, CUDA, ROCm, Vulkan, और SYCL लक्ष्यों के लिए macOS, Linux, Windows, Android, और openEuler के लिए नए binaries शामिल हैं।