Los investigadores presentan DigenRL, un marco de aprendizaje por refuerzo desagregado diseñado para abordar las ineficiencias de la ejecución colocalizada en modelos de lenguaje grande generativos basados en difusión. El sistema admite asignación flexible de recursos y GPUs heterogéneas mientras utiliza técnicas de paralelismo novedosas para reducir las burbujas de ejecución.

  • Introduce el pipeline del eje de generación (GAP) y el paralelismo por paso de tiempo (TSP) para un pipeline más fino entre rollout y entrenamiento.
  • Propone la generación asistida por entrenador elástico (TAG) para permitir que los recursos de GPU del entrenador asistan dinámicamente en la ejecución de las generaciones de rollout.
  • Implementa una estrategia asíncrona estrictamente restringida a un paso para utilizar la burbuja final en el pipeline.
  • Logra mejoras de rendimiento de 1.56-2.10x sobre sistemas de última generación como veRL-Omni y GenRL en múltiples plataformas de hardware.

DigenRL permite una programación eficiente de tareas y escalado independiente para modelos generativos de difusión, mejorando significativamente el rendimiento en comparación con las implementaciones existentes que acoplan los recursos de rollout y entrenamiento.