Проект llama.cpp выпустил версию b9788, которая внедряет поддержку опции --split-mode для тензоров в бэкенде SYCL. Это обновление специально ориентировано на пользователей, выполняющих инференс на графических процессорах Intel. Функция реализована через pull request #24152 в репозитории ggml-org. Она позволяет разделять тензоры модели между несколькими устройствами, а не полагаться исключительно на распределение по слоям. В примечаниях к выпуску прямо приглашаются пользователи с конфигурациями из двух GPU Intel протестировать новую функциональность. Разработчикам предлагается предоставить бенчмарки производительности для подтверждения улучшений. Это дополнение направлено на повышение эффективности использования нескольких GPU для совместимых конфигураций оборудования Intel.
llama.cpp b9788 добавляет поддержку разделения тензоров SYCL для GPU Intel
Переведено с English → Русский