El laboratorio SJTU-DENG-Lab propone Modelos de Lenguaje de Difusión Multi-Bloque con Forzamiento Maestro Multi-bloque

Investigadores del SJTU-DENG-Lab presentan los Modelos de Lenguaje de Difusión Multi-Bloque (MBD-LMs) para extender los modelos de Difusión de Bloque Único descodificando concurrentemente un conjunto en ejecución de bloques consecutivos para paralelismo inter-bloque. El enfoque utiliza Forzamiento Maestro Multi-bloque (MultiTF) durante el post-entrenamiento para cerrar la brecha entre los estados de entrenamiento y la inferencia, junto con un algoritmo de descodificación optimizado basado en el mecanismo del Búfer de Bloques.

Los MBD-LMs utilizan Forzamiento Maestro Multi-bloque para entrenar en grupos de ruido acotados condicionados por prefijos limpios con programadores de ruido aleatorizados.
El mecanismo del Búfer de Bloques preserva la reutilización de la caché de prefijos y mantiene las formas de entrada estáticas para traducir el paralelismo en aceleración de tiempo real.
MBD-LLaDA2-Mini aumenta el promedio de Tokens Por Pase Hacia Adelante (TPF) de 3.47 a 6.19 y mejora la precisión promedio del 79.95% al 81.03%.
Al combinarse con DMax, MBD-LLaDA2-Mini-DMax alcanza un TPF promedio de 9.34 con solo una caída del 1.02% en precisión en las pruebas de matemáticas y código.

Este trabajo permite la ejecución práctica de la difusión multi-bloque al alinear las distribuciones de entrenamiento con los estados de inferencia mientras aumenta significativamente el rendimiento de descodificación.