llama.cpp b9788 adiciona paralelismo de tensores via SYCL para configurações com duas GPUs

A versão b9788 do llama.cpp introduz suporte ao paralelismo de tensores por meio da flag --split-mode tensor no backend SYCL. Esta implementação permite a comunicação entre duas GPUs adicionando as funções comm_init, comm_free e comm_allreduce_tensor ao meta-backend. Para dois dispositivos, utiliza uma estratégia de ring all-reduce que alterna entre memcpy direto em FP32 para tensores pequenos e compressão BF16 para tensores maiores. O código evita o OneCCL devido à sua limitação de um dispositivo por processo, utilizando buffers persistentes para manter as invariantes do pool SYCL. Testes de desempenho em duas GPUs Intel Arc Pro B70 mostram acelerations significativas em relação ao modo layer para os modelos Llama-3.3-70B e Qwen3-Coder-Next-80B-A3B. A atualização inclui novos binários para macOS, Linux, Windows, Android e openEuler nos alvos CPU, CUDA, ROCm, Vulkan e SYCL.