Acelerando el RL desagregado para LLMs visuales generativos con paralelismo basado en difusión
Los investigadores presentan DigenRL, un marco de aprendizaje por refuerzo desagregado diseñado para abordar las ineficiencias de la ejecución colocalizada en modelos de lenguaje grande generativos basados en difusión. El sistema admite asignación flexible de recursos y GPUs heterogéneas mientras utiliza técnicas de paralelismo novedosas para reducir las burbujas de ejecución.