DiT-Reward: Использование представлений диффузионного трансформатора для моделирования вознаграждения в задаче генерации изображений по тексту
Авторы представляют DiT-Reward — метод, который преобразует предварительно обученный диффузионный трансформатор (Diffusion Transformer) для генерации изображений по тексту в модель вознаграждения путем агрегирования представлений изображений, обусловленных текстом, по слоям трансформатора. При оценке на том же наборе обучающих данных, что и HPSv3, DiT-Reward превосходит HPSv3 во всех четырех бенчмарках предпочтений, достигая 85,6% на HPDv2 и 77,6% на HPDv3. Исследование показывает, что производительность модели вознаграждения в downstream-задачах наиболее высока в средних и поздних слоях и выигрывает от комбинирования представлений из разных стадий обработки. Даже при замороженном генеративном ядре легковесная обучаемая головка может извлекать значимые предсказания предпочтений из этих представлений. При использовании для оптимизации Stable Diffusion 3.5 Large с помощью Flow-GRPO DiT-Reward превосходит HPSv3 на совпадающей траектории обучения, демонстрируя четкий прирост в реализме. Кроме того, прямое оценивание латентных представлений обеспечивает ускорение вывода в 1,65 раза по сравнению с HPSv3 при сохранении сопоставимого пикового потребления памяти. Эти результаты демонстрируют, что предварительно обученные генеративные диффузионные трансформаторы предоставляют переносимые представления для моделирования вознаграждения и оптимизации политик.