Авторы представляют фреймворк для моделирования энергопотребления обучения трансформеров на нескольких GPU, отвечая на потребность в устойчивом проектировании систем по мере роста вычислительных затрат. Проводя контролируемые архитектурные исследования на моделях BERT, они связывают измеренное энергопотребление с легковесными прокси-величинами для вычислений, трафика памяти и эффективности оборудования. Подход вдохновлен моделями roofline и включает фактор эффективности оборудования, основанный на ускорении, чтобы учесть тензорный параллелизм и полностью фрагментированный параллелизм данных (fully sharded data parallelism). Эта методология позволяет вывести модель закона масштабирования, которая точно предсказывает энергопотребление обучения в гетерогенных конфигурациях. Работа подчеркивает критическую важность прогнозирования энергопотребления по мере роста размера модели и масштаба параллелизма. Она предоставляет практический инструмент для проектирования с учетом затрат в системах обработки естественного языка крупного масштаба.
Потребление энергии при тонкой настройке трансформеров: Масштабируемая модель, вдохновленная концепцией roofline
Переведено с English → Русский