El Enrutamiento Consciente de Sí Mismo Aprende el Orden de Desenmascaramiento de Tokens en Modelos de Lenguaje de Difusión

Los autores proponen el Enrutamiento Consciente de Sí Mismo (SAS) para optimizar el orden de desenmascaramiento de tokens en modelos de lenguaje de difusión enmascarados, lo cual impacta significativamente la calidad de la generación. Derivan una cota superior manejable sobre la discrepancia de decodificación secuencial utilizando divergencia de Kullback-Leibler y verosimilitud logarítmica por trayectorias. Esta cota crea una recompensa densa y consciente de sí misma que enmarca la selección del orden como un problema de optimización de políticas con un denoiser congelado. SAS aprende una política de orden ligera mediante Optimización de Política Relativa por Grupos, soportando tanto decodificación de cualquier orden como semi-autoregresiva. En tareas de Sudoku usando un modelo de 1B parámetros, la precisión mejoró del 82.0% al 91.8%, alcanzando el 97.5% después del ajuste fino de segunda etapa. Para razonamiento matemático con LLaDA-8B, pass@1 en GSM8K aumentó del 64% al 76%. El método también elevó las puntuaciones de MBPP del 39.5% al 41%, igualando o superando consistentemente los horarios heurísticos a través de varios parámetros.

Benchmark	Modelo	Puntuación
GSM8K	LLaDA-8B	76%
MBPP+	LLaDA-8B	41%

Benchmarks