DiT-Reward: Генеративные представления для моделирования вознаграждения в задачах text-to-image

В статье представлен DiT-Reward — метод, который превращает предварительно обученный Diffusion Transformer для генерации изображений по тексту в модель вознаграждения за счёт обработки почти чистых латентных представлений изображений и агрегирования текстово-условных представлений по слоям трансформера. Этот подход использует генеративные представления для оценки качества сгенерированных изображений без необходимости отдельных целей обучения.

DiT-Reward превосходит HPSv3 на всех четырёх оценённых бенчмарках предпочтений, достигая 85,6% на HPDv2 и 77,6% на HPDv3 при использовании той же смеси обучающих данных.
Лёгкая обучаемая головка может извлекать осмысленные предсказания предпочтений из замороженных представлений генеративного бэкбона.
Производительность вознаграждения в downstream-задачах наиболее сильна в средних и поздних слоях и выигрывает от комбинирования представлений на разных этапах.
Метод демонстрирует стабильное положительное масштабирование с увеличением ёмкости генеративного бэкбона.
При оптимизации Stable Diffusion 3.5 Large с помощью Flow-GRPO DiT-Reward превосходит HPSv3, обеспечивая заметный прирост реализма.
Прямое оценивание латентов обеспечивает ускорение инференса в 1,65 раза по сравнению с HPSv3 при сопоставимом пиковом потреблении памяти.

Эти результаты показывают, что предварительно обученные генеративные Diffusion Transformers предоставляют переносимые представления, подходящие для задач моделирования вознаграждения и оптимизации политик.