Ускорение деагрегированного RL для визуальных генеративных LLM с помощью диффузионного параллелизма
Исследователи представляют DigenRL, деагрегированную систему обучения с подкреплением, предназначенную для устранения неэффективности совместного выполнения в диффузионных генеративных больших языковых моделях. Система поддерживает гибкое распределение ресурсов и гетерогенные GPU, используя новые техники параллелизма для сокращения «пузырей» выполнения.