El proyecto llama.cpp ha lanzado la versión b9788, que introduce soporte para la opción --split-mode tensor dentro de su backend SYCL. Esta actualización se dirige específicamente a usuarios que ejecutan inferencia en unidades gráficas Intel. La función está implementada a través del pull request #24152 en el repositorio ggml-org. Permite dividir los tensores del modelo entre múltiples dispositivos en lugar de depender únicamente de la distribución basada en capas. Las notas de lanzamiento invitan explícitamente a usuarios con configuraciones de doble GPU Intel a probar esta nueva funcionalidad. Se anima a los contribuyentes a proporcionar benchmarks de rendimiento para validar las mejoras. Esta adición tiene como objetivo mejorar la utilización multi-GPU para configuraciones de hardware Intel compatibles.
llama.cpp b9788 añade soporte para división de tensores SYCL en GPUs Intel
Traducido del English → Español