JS-Разделение улучшает ауторегрессивную альignment текста-изображения в GRPO

Исследование вводит JS-разделение в постобучивании GRPO-стиля, демонстрируя, что оно сбалансирует оптимизацию политики и разнообразие генерации. Эксперименты на LlamaGen и Janus-7B показывают, что JS-разделение достигает лучших или сильных результатов по оценочным метрикам, сохраняя разнообразие выходов.