Исследователи представляют DigenRL, деагрегированную систему обучения с подкреплением, предназначенную для устранения неэффективности совместного выполнения в диффузионных генеративных больших языковых моделях. Система поддерживает гибкое распределение ресурсов и гетерогенные GPU, используя новые техники параллелизма для сокращения «пузырей» выполнения.

  • Вводит конвейер по оси генерации (GAP) и параллелизм по временным шагам (TSP) для более детализированного конвейеризования между rollout и обучением.
  • Предлагает эластичный тренер, помогающий в генерации (TAG), чтобы ресурсы GPU тренера могли динамически помогать в выполнении rollout-генераций.
  • Реализует жестко ограниченную одношаговую асинхронную стратегию для использования «хвостового» пузыря в конвейере.
  • Достигает увеличения пропускной способности в 1.56–2.10 раза по сравнению с современными системами, такими как veRL-Omni и GenRL, на нескольких аппаратных тестовых стендах.

DigenRL обеспечивает эффективное планирование задач и независимое масштабирование для диффузионных генеративных моделей, значительно улучшая производительность по сравнению с существующими реализациями, которые связывают ресурсы rollout и обучения.