Pesquisadores do SJTU-DENG-Lab introduzem Modelos de Linguagem de Difusão Multi-Bloco (MBD-LMs) para estender os modelos de Difusão Single-Block, decodificando um conjunto contínuo de blocos consecutivos simultaneamente para paralelismo inter-bloco. A abordagem utiliza Forçamento de Professor Multi-Bloco (MultiTF) durante o pós-treinamento para reduzir a lacuna entre os estados de treinamento e inferência, juntamente com um algoritmo de decodificação otimizado baseado no mecanismo Block Buffer.
- MBD-LMs utilizam Forçamento de Professor Multi-Bloco para treinar em grupos de ruído limitados condicionados a prefixos limpos com escalonadores de ruído aleatorizados.
- O mecanismo Block Buffer preserva a reutilização do prefix-cache e mantém as formas de entrada estáticas para converter paralelismo em aceleração de tempo real.
- MBD-LLaDA2-Mini aumenta o Tokens Per Forward pass (TPF) médio de 3,47 para 6,19 e melhora a precisão média de 79,95% para 81,03%.
- Quando combinado com DMax, MBD-LLaDA2-Mini-DMax atinge um TPF médio de 9,34 com apenas uma queda de 1,02% na precisão nos benchmarks de matemática e código.
Este trabalho viabiliza a execução prática da difusão multi-bloco ao alinhar as distribuições de treinamento com os estados de inferência, enquanto aumenta significativamente a taxa de decodificação.