Pesquisadores do SJTU-DENG-Lab introduzem Modelos de Linguagem de Difusão Multi-Bloco (MBD-LMs) para estender os modelos de Difusão Single-Block, decodificando um conjunto contínuo de blocos consecutivos simultaneamente para paralelismo inter-bloco. A abordagem utiliza Forçamento de Professor Multi-Bloco (MultiTF) durante o pós-treinamento para reduzir a lacuna entre os estados de treinamento e inferência, juntamente com um algoritmo de decodificação otimizado baseado no mecanismo Block Buffer.

  • MBD-LMs utilizam Forçamento de Professor Multi-Bloco para treinar em grupos de ruído limitados condicionados a prefixos limpos com escalonadores de ruído aleatorizados.
  • O mecanismo Block Buffer preserva a reutilização do prefix-cache e mantém as formas de entrada estáticas para converter paralelismo em aceleração de tempo real.
  • MBD-LLaDA2-Mini aumenta o Tokens Per Forward pass (TPF) médio de 3,47 para 6,19 e melhora a precisão média de 79,95% para 81,03%.
  • Quando combinado com DMax, MBD-LLaDA2-Mini-DMax atinge um TPF médio de 9,34 com apenas uma queda de 1,02% na precisão nos benchmarks de matemática e código.

Este trabalho viabiliza a execução prática da difusão multi-bloco ao alinhar as distribuições de treinamento com os estados de inferência, enquanto aumenta significativamente a taxa de decodificação.