Investigadores del SJTU-DENG-Lab presentan los Modelos de Lenguaje de Difusión Multi-Bloque (MBD-LMs) para extender los modelos de Difusión de Bloque Único descodificando concurrentemente un conjunto en ejecución de bloques consecutivos para paralelismo inter-bloque. El enfoque utiliza Forzamiento Maestro Multi-bloque (MultiTF) durante el post-entrenamiento para cerrar la brecha entre los estados de entrenamiento y la inferencia, junto con un algoritmo de descodificación optimizado basado en el mecanismo del Búfer de Bloques.
- Los MBD-LMs utilizan Forzamiento Maestro Multi-bloque para entrenar en grupos de ruido acotados condicionados por prefijos limpios con programadores de ruido aleatorizados.
- El mecanismo del Búfer de Bloques preserva la reutilización de la caché de prefijos y mantiene las formas de entrada estáticas para traducir el paralelismo en aceleración de tiempo real.
- MBD-LLaDA2-Mini aumenta el promedio de Tokens Por Pase Hacia Adelante (TPF) de 3.47 a 6.19 y mejora la precisión promedio del 79.95% al 81.03%.
- Al combinarse con DMax, MBD-LLaDA2-Mini-DMax alcanza un TPF promedio de 9.34 con solo una caída del 1.02% en precisión en las pruebas de matemáticas y código.
Este trabajo permite la ejecución práctica de la difusión multi-bloque al alinear las distribuciones de entrenamiento con los estados de inferencia mientras aumenta significativamente el rendimiento de descodificación.