Peneliti dari SJTU-DENG-Lab memperkenalkan Model Bahasa Diffusi Multi-Blok (MBD-LMs) untuk memperluas model Diffusi Single-Block dengan mendekode sekumpulan blok berurutan secara bersamaan untuk paralelisme antar-blok. Pendekatan ini menggunakan Pemaksaan Guru Multi-Blok (MultiTF) selama pasca-pelatihan untuk menjembatani kesenjangan antara keadaan pelatihan dan inferensi, bersama dengan algoritma dekoding yang dioptimalkan berdasarkan mekanisme Buffer Blok.
- MBD-LMs memanfaatkan Pemaksaan Guru Multi-Blok untuk melatih pada kelompok noise terbatas yang dikondisikan pada awalan bersih dengan penjadwal noise acak.
- Mekanisme Buffer Blok mempertahankan penggunaan ulang cache awalan dan menjaga bentuk input tetap statis untuk mengubah paralelisme menjadi akselerasi waktu nyata.
- MBD-LLaDA2-Mini meningkatkan rata-rata Token Per Lulus Maju (TPF) dari 3,47 menjadi 6,19 dan meningkatkan akurasi rata-rata dari 79,95% menjadi 81,03%.
- Ketika dikombinasikan dengan DMax, MBD-LLaDA2-Mini-DMax mencapai TPF rata-rata 9,34 dengan penurunan akurasi hanya 1,02% pada benchmark matematika dan kode.
Karya ini memungkinkan eksekusi praktis dari diffusi multi-blok dengan menyelaraskan distribusi pelatihan dengan keadaan inferensi sambil secara signifikan meningkatkan throughput dekoding.