Reflexiones sobre la programación: Aprender el orden del pensamiento en modelos de lenguaje de difusión
Los investigadores proponen Self-Aware Scheduling (SAS), un método que aprende un orden óptimo de desenmascaramiento de tokens para modelos de lenguaje de difusión enmascarados con el fin de mejorar la calidad de la generación. Al derivar una cota superior manejable sobre la discrepancia de la decodificación secuencial, el enfoque plantea la selección del orden como un problema de optimización de políticas utilizando Group Relative Policy Optimization.