Un nuevo marco modela el consumo energético en el entrenamiento de Transformers en múltiples GPUs. Utiliza barridos arquitecturales de BERT para vincular la energía medida con el cómputo, el tráfico de memoria y los proxies de eficiencia del hardware. El modelo, inspirado en el análisis roofline, incluye un factor de eficiencia del hardware basado en aceleración y predice la energía de entrenamiento en diversas configuraciones de GPU.
Modelo de consumo energético para el entrenamiento de Transformers
Traducido del English → Español