Este artículo presenta un marco para modelar el consumo de energía del entrenamiento de Transformers en múltiples GPUs, con el objetivo de abordar los crecientes costos computacionales en el diseño de sistemas sostenibles.

  • El modelo relaciona la energía medida con proxies ligeros para cómputo, tráfico de memoria y eficiencia de hardware mediante barridos arquitectónicos controlados de modelos BERT.
  • Incorpora un factor de eficiencia de hardware basado en speedup inspirado en los modelos roofline para capturar los efectos del paralelismo de tensores y el paralelismo de datos completamente fragmentado (fully sharded data parallelism).
  • Los autores derivan un modelo de ley de escalado que predice con precisión la energía de entrenamiento en configuraciones heterogéneas.

Este enfoque permite una predicción precisa del consumo de energía, lo cual es crítico para el diseño consciente del costo y sostenible a medida que los modelos Transformers aumentan en tamaño y paralelismo.