Исследование вводит JS-разделение в постобучивании GRPO-стиля, демонстрируя, что оно сбалансирует оптимизацию политики и разнообразие генерации. Эксперименты на LlamaGen и Janus-7B показывают, что JS-разделение достигает лучших или сильных результатов по оценочным метрикам, сохраняя разнообразие выходов.