Spec-AUF meningkatkan panjang penerimaan drafter blok termaskir dengan membatasi dukungan kerugian

Spec-AUF memperkenalkan metode pelatihan untuk drafter blok termaskir dalam decoding spekulatif yang menyelaraskan tujuan pelatihan dengan perilaku inferensi dengan membatasi kerugian entropi silang pada awalan yang diterima. Pendekatan ini mengaproksimasi pengawasan sensitif awalan dengan menjaga dukungan kerugian hanya melalui kegagalan prediksi pertama drafter, tanpa memerlukan tujuan tambahan atau perubahan pada pipeline inferensi.

Pada Qwen3-8B, AUF meningkatkan panjang rata-rata yang dipancarkan oleh drafter DFlash dari 2.40 menjadi 2.61 di enam benchmark.
Metode ini berpindah ke kepala dua cabang Domino, meningkatkan kinerja dari 2.56 menjadi 2.68.
Pembobotan peluruhan posisi eksponensial standar menjadi secara empiris tidak aktif setelah AUF memotong dukungan.

Perubahan ini meningkatkan tingkat penerimaan draf dengan memastikan model hanya diawasi pada token yang benar-benar dikomitmkan selama generasi.