llama.cpp b9788 добавляет параллелизм тензоров по SYCL для конфигураций с двумя GPU

В релизе llama.cpp b9788 добавлена поддержка параллелизма тензоров через флаг --split-mode tensor в бэкенде SYCL. Эта реализация обеспечивает взаимодействие между двумя GPU путём добавления функций comm_init, comm_free и comm_allreduce_tensor в мета-бэкенд. Для двух устройств используется стратегия ring all-reduce, которая переключается между прямым копированием FP32 для малых тензоров и сжатием BF16 для больших. Код избегает использования OneCCL из-за его ограничения на один процесс на устройство, вместо этого применяя постоянные буферы для сохранения инвариантов пула SYCL. Тесты производительности на двух GPU Intel Arc Pro B70 показали значительное ускорение по сравнению с режимом слоёв для моделей Llama-3.3-70B и Qwen3-Coder-Next-80B-A3B. Обновление включает новые бинарные файлы для macOS, Linux, Windows, Android и openEuler для целевых платформ CPU, CUDA, ROCm, Vulkan и SYCL.