Les chercheurs du SJTU-DENG-Lab présentent les Modèles de Langage à Diffusion Multi-Block (MBD-LMs) pour étendre les modèles de diffusion Single-Block en décodant un ensemble continu de blocs simultanément pour le parallélisme inter-bloc. L'approche utilise le Forçage Professeur Multi-Block (MultiTF) pendant l'entraînement postérieur pour combler l'écart entre les états d'entraînement et d'inférence, ainsi qu'un algorithme de décodage optimisé basé sur le mécanisme du tampon de bloc.
- Les MBD-LMs utilisent le Forçage Professeur Multi-Block pour s'entraîner sur des groupes de bruit bornés conditionnés par des préfixes propres avec des planificateurs de bruit randomisés.
- Le mécanisme du tampon de bloc préserve la réutilisation du cache de préfixe et maintient les formes d'entrée statiques pour convertir le parallélisme en accélération en temps réel.
- MBD-LLaDA2-Mini augmente le nombre moyen de jetons par passage avant (TPF) de 3.47 à 6.19 et améliore la précision moyenne de 79,95 % à 81,03 %.
- Combiné avec DMax, MBD-LLaDA2-Mini-DMax atteint un TPF moyen de 9,34 avec une baisse de précision de seulement 1,02 % sur les benchmarks mathématiques et de code.
Ce travail permet l'exécution pratique de la diffusion multi-block en alignant les distributions d'entraînement avec les états d'inférence tout en augmentant significativement le débit de décodage.