Los investigadores proponen Modelos de Lenguaje de Difusión Multi-Bloque (MBD-LMs) para extender la generación de texto por difusión de un solo bloque, descodificando concurrentemente un conjunto en ejecución de bloques consecutivos para lograr paralelismo inter-bloque. El enfoque cierra la brecha entre los estados de entrenamiento e inferencia mediante un método post-entrenamiento llamado Forzamiento Maestro Multi-Bloque (MultiTF).

El método utiliza MultiTF, que integra el forzamiento maestro y el forzamiento de difusión en grupos de ruido acotados con programadores de ruido aleatorizados para igualar la inferencia MultiBD. Se introduce un algoritmo de descodificación optimizado basado en el mecanismo del Búfer de Bloques para preservar la reutilización de la caché de prefijos y mantener las formas de entrada estáticas. Los resultados empíricos muestran que MBD-LLaDA2-Mini aumenta el promedio de Tokens Por Pase Hacia Adelante de 3.47 a 6.19, mientras mejora la precisión de 79.95% a 81.03%. Al combinarse con DMax, el modelo alcanza un TPF promedio de 9.34 con una caída de precisión de solo 1.02% en los benchmarks de matemáticas y código.

Este trabajo traduce el mayor paralelismo de descodificación en aceleración del tiempo de pared mientras mantiene o mejora la precisión de generación.