Потребление энергии при тонкой настройке трансформеров: модель масштабирования, вдохновленная roofline

В данной статье представлена框架 для моделирования энергопотребления обучения трансформеров на нескольких GPU, направленная на решение растущих вычислительных затрат в контексте устойчивого проектирования систем.

Модель связывает измеренную энергию с легковесными прокси-величинами для вычислений, трафика памяти и эффективности оборудования, используя контролируемые архитектурные изменения моделей BERT.
Она включает фактор эффективности оборудования на основе ускорения, вдохновленный моделями roofline, чтобы учесть эффекты тензорного параллелизма и полностью фрагментированного параллелизма данных (fully sharded data parallelism).
Авторы выводят модель закона масштабирования, которая точно предсказывает энергопотребление обучения в гетерогенных конфигурациях.

Этот подход позволяет точно прогнозировать потребление энергии, что критически важно для проектирования с учетом затрат и устойчивости по мере увеличения размера моделей трансформеров и уровня параллелизма.