Los autores presentan un marco para modelar el consumo de energía del entrenamiento de Transformers en múltiples GPUs, abordando la necesidad de un diseño de sistemas sostenible a medida que aumentan los costos computacionales. Al realizar barridos arquitectónicos controlados en modelos BERT, relacionan el uso de energía medido con proxies ligeros para el cómputo, el tráfico de memoria y la eficiencia del hardware. El enfoque está inspirado en los modelos roofline e incorpora un factor de eficiencia del hardware basado en aceleración para tener en cuenta el paralelismo de tensores y el paralelismo de datos completamente fragmentado. Esta metodología permite derivar un modelo de ley de escalado que predice con precisión la energía de entrenamiento en configuraciones heterogéneas. El trabajo destaca la importancia crítica de predecir el consumo de energía a medida que el tamaño del modelo y la escala del paralelismo crecen. Proporciona una herramienta práctica para el diseño consciente del costo en sistemas de procesamiento de lenguaje natural a gran escala.