SJTU-DENG-Lab mengusulkan Model Bahasa Diffusi Multi-Blok dengan Pemaksaan Guru Multi-Blok

Peneliti dari SJTU-DENG-Lab memperkenalkan Model Bahasa Diffusi Multi-Blok (MBD-LMs) untuk memperluas model Diffusi Single-Block dengan mendekode sekumpulan blok berurutan secara bersamaan untuk paralelisme antar-blok. Pendekatan ini menggunakan Pemaksaan Guru Multi-Blok (MultiTF) selama pasca-pelatihan untuk menjembatani kesenjangan antara keadaan pelatihan dan inferensi, bersama dengan algoritma dekoding yang dioptimalkan berdasarkan mekanisme Buffer Blok.

MBD-LMs memanfaatkan Pemaksaan Guru Multi-Blok untuk melatih pada kelompok noise terbatas yang dikondisikan pada awalan bersih dengan penjadwal noise acak.
Mekanisme Buffer Blok mempertahankan penggunaan ulang cache awalan dan menjaga bentuk input tetap statis untuk mengubah paralelisme menjadi akselerasi waktu nyata.
MBD-LLaDA2-Mini meningkatkan rata-rata Token Per Lulus Maju (TPF) dari 3,47 menjadi 6,19 dan meningkatkan akurasi rata-rata dari 79,95% menjadi 81,03%.
Ketika dikombinasikan dengan DMax, MBD-LLaDA2-Mini-DMax mencapai TPF rata-rata 9,34 dengan penurunan akurasi hanya 1,02% pada benchmark matematika dan kode.

Karya ini memungkinkan eksekusi praktis dari diffusi multi-blok dengan menyelaraskan distribusi pelatihan dengan keadaan inferensi sambil secara signifikan meningkatkan throughput dekoding.