llama.cpp b9788 добавляет поддержку разделения тензоров SYCL для GPU Intel

Проект llama.cpp выпустил версию b9788, которая внедряет поддержку опции --split-mode для тензоров в бэкенде SYCL. Это обновление специально ориентировано на пользователей, выполняющих инференс на графических процессорах Intel. Функция реализована через pull request #24152 в репозитории ggml-org. Она позволяет разделять тензоры модели между несколькими устройствами, а не полагаться исключительно на распределение по слоям. В примечаниях к выпуску прямо приглашаются пользователи с конфигурациями из двух GPU Intel протестировать новую функциональность. Разработчикам предлагается предоставить бенчмарки производительности для подтверждения улучшений. Это дополнение направлено на повышение эффективности использования нескольких GPU для совместимых конфигураций оборудования Intel.