В данной статье представлена框架 для моделирования энергопотребления обучения трансформеров на нескольких GPU, направленная на решение растущих вычислительных затрат в контексте устойчивого проектирования систем.
- Модель связывает измеренную энергию с легковесными прокси-величинами для вычислений, трафика памяти и эффективности оборудования, используя контролируемые архитектурные изменения моделей BERT.
- Она включает фактор эффективности оборудования на основе ускорения, вдохновленный моделями roofline, чтобы учесть эффекты тензорного параллелизма и полностью фрагментированного параллелизма данных (fully sharded data parallelism).
- Авторы выводят модель закона масштабирования, которая точно предсказывает энергопотребление обучения в гетерогенных конфигурациях.
Этот подход позволяет точно прогнозировать потребление энергии, что критически важно для проектирования с учетом затрат и устойчивости по мере увеличения размера моделей трансформеров и уровня параллелизма.