Reflexiones sobre la programación: Aprender el orden del pensamiento en modelos de lenguaje de difusión

Los investigadores proponen Self-Aware Scheduling (SAS), un método que aprende un orden óptimo de desenmascaramiento de tokens para modelos de lenguaje de difusión enmascarados con el fin de mejorar la calidad de la generación. Al derivar una cota superior manejable sobre la discrepancia de la decodificación secuencial, el enfoque plantea la selección del orden como un problema de optimización de políticas utilizando Group Relative Policy Optimization.

SAS introduce una recompensa densa y autoconsciente sobre trayectorias ordenadas para guiar la política de orden ligera.
El método se aplica sin problemas tanto a modos de decodificación de cualquier orden como semi-autoregresivos.
En Sudoku con un MDM de 1B, la precisión mejoró del 82.0% al 91.8%, alcanzando el 97.5% con ajuste fino de segunda etapa.
Para el razonamiento matemático con LLaDA-8B, pass@1 en GSM8K aumentó del 64% al 76% y en MBPP del 39.5% al 41%.

Este enfoque proporciona una alternativa fundamentada a la programación heurística, igualando o superando consistentemente el rendimiento de referencia en varias longitudes de generación y tamaños de bloque.

Benchmark	Modelo	Puntuación
GSM8K	LLaDA-8B	76%
MBPP+	LLaDA-8B	41%

Benchmarks