В статье представлен DiT-Reward — метод, который превращает предварительно обученный Diffusion Transformer для генерации изображений по тексту в модель вознаграждения за счёт обработки почти чистых латентных представлений изображений и агрегирования текстово-условных представлений по слоям трансформера. Этот подход использует генеративные представления для оценки качества сгенерированных изображений без необходимости отдельных целей обучения.
- DiT-Reward превосходит HPSv3 на всех четырёх оценённых бенчмарках предпочтений, достигая 85,6% на HPDv2 и 77,6% на HPDv3 при использовании той же смеси обучающих данных.
- Лёгкая обучаемая головка может извлекать осмысленные предсказания предпочтений из замороженных представлений генеративного бэкбона.
- Производительность вознаграждения в downstream-задачах наиболее сильна в средних и поздних слоях и выигрывает от комбинирования представлений на разных этапах.
- Метод демонстрирует стабильное положительное масштабирование с увеличением ёмкости генеративного бэкбона.
- При оптимизации Stable Diffusion 3.5 Large с помощью Flow-GRPO DiT-Reward превосходит HPSv3, обеспечивая заметный прирост реализма.
- Прямое оценивание латентов обеспечивает ускорение инференса в 1,65 раза по сравнению с HPSv3 при сопоставимом пиковом потреблении памяти.
Эти результаты показывают, что предварительно обученные генеративные Diffusion Transformers предоставляют переносимые представления, подходящие для задач моделирования вознаграждения и оптимизации политик.