Un estudio introduce la divergencia JS en el post-entrenamiento autoregresivo de texto a imagen estilo GRPO, mostrando que equilibra la optimización de políticas y la diversidad de generación. Los experimentos en LlamaGen y Janus-7B demuestran que la divergencia JS logra un rendimiento superior o fuerte en las métricas de evaluación mientras preserva salidas diversas.