SJTU-DENG-Labがマルチブロック教師強制を用いたマルチブロック拡散言語モデルを提案

SJTU-DENG-Labの研究者たちは、連続するブロックのセットを並列にデコードすることでブロック間並列化を実現し、シングルブロック拡散モデルを拡張するマルチブロック拡散言語モデル（MBD-LMs）を発表しました。この手法は、ポストトレーニング中にマルチブロック教師強制（MultiTF）を用いてトレーニング状態と推論のギャップを埋め、ブロックバッファ機構に基づく最適化されたデコードアルゴリズムを採用しています。

MBD-LMsは、ランダムなノイズスケジューラを持つクリーンなプレフィックスに条件付けられた境界付きノイズグループでトレーニングするためにマルチブロック教師強制を利用します。
ブロックバッファ機構はプレフィックスキャッシュの再利用を維持し、入力形状を静的に保つことで、並列化を実際の処理時間の短縮に変換します。
MBD-LLaDA2-Miniは、1回のフォワードパスあたりの平均トークン数（TPF）を3.47から6.19に増加させ、平均精度を79.95%から81.03%に向上させました。
DMaxと組み合わせることで、MBD-LLaDA2-Mini-DMaxは数学およびコードベンチマークで1.02%の精度低下にとどまりながら、平均TPF 9.34を達成しました。

この研究は、トレーニング分布と推論状態を整合させることでマルチブロック拡散の実用的な実行を可能にし、デコードスループットを大幅に向上させます。