Este artículo presenta un marco de descodificación continua para modelos de lenguaje de difusión enmascarada (MDLMs) que reinterpretar la predicción de máscaras como predicción de estado limpio para inducir un flujo continuo en el espacio de incrustaciones de entrada. Al permitir que los tokens acumulen progreso parcial y permanezcan revisables, el método aborda los compromisos prematuros inherentes a los regímenes estándar de desenmascaramiento binario.
- El marco reemplaza los horarios síncronos globales con actualizaciones asíncronas basadas en confianza para manejar las restricciones contextuales desiguales entre posiciones.
- Se introduce y entrena una red de política ligera mediante aprendizaje por refuerzo para gestionar el proceso de descodificación.
- Aplicado al modelo preentrenado LLaDA, el descodificador continuo alcanza el 97% de su rendimiento en el conjunto de datos HumanEval utilizando solo el 25% del presupuesto de descodificación.
Este enfoque mejora la eficiencia al permitir una representación de creencia parcial durante la generación, lo que posibilita una retención significativa del rendimiento con recursos computacionales substancialmente reducidos.