SJTU-DENG-Lab propose des Modèles de Langage à Diffusion Multi-Block avec Forçage Professeur Multi-Block

Les chercheurs du SJTU-DENG-Lab présentent les Modèles de Langage à Diffusion Multi-Block (MBD-LMs) pour étendre les modèles de diffusion Single-Block en décodant un ensemble continu de blocs simultanément pour le parallélisme inter-bloc. L'approche utilise le Forçage Professeur Multi-Block (MultiTF) pendant l'entraînement postérieur pour combler l'écart entre les états d'entraînement et d'inférence, ainsi qu'un algorithme de décodage optimisé basé sur le mécanisme du tampon de bloc.

Les MBD-LMs utilisent le Forçage Professeur Multi-Block pour s'entraîner sur des groupes de bruit bornés conditionnés par des préfixes propres avec des planificateurs de bruit randomisés.
Le mécanisme du tampon de bloc préserve la réutilisation du cache de préfixe et maintient les formes d'entrée statiques pour convertir le parallélisme en accélération en temps réel.
MBD-LLaDA2-Mini augmente le nombre moyen de jetons par passage avant (TPF) de 3.47 à 6.19 et améliore la précision moyenne de 79,95 % à 81,03 %.
Combiné avec DMax, MBD-LLaDA2-Mini-DMax atteint un TPF moyen de 9,34 avec une baisse de précision de seulement 1,02 % sur les benchmarks mathématiques et de code.

Ce travail permet l'exécution pratique de la diffusion multi-block en alignant les distributions d'entraînement avec les états d'inférence tout en augmentant significativement le débit de décodage.