Para peneliti mengusulkan hipotesis pemisahan prediksi-state, dengan berargumen bahwa memisahkan prediksi token berikutnya dari penyimpanan state menghasilkan kinerja pemodelan bahasa yang lebih baik. Mereka merancang varian Transformer yang menggunakan dua aliran komputasi untuk memisahkan fungsi-fungsi ini dan melakukan eksperimen pra-pelatihan di berbagai skala.
- Arsitektur yang diusulkan secara konsisten menawarkan efisiensi data dan komputasi yang lebih baik dibandingkan dengan Transformer standar.
- Ini meningkatkan kerugian validasi selama pra-pelatihan.
- Ini mengungguli Transformer standar sebesar 2--3 poin persentase rata-rata pada tugas-tugas turunan.
- Analisis empiris menyingkirkan faktor pengacau dan menunjukkan perbedaan mendasar dalam gradien yang terlibat oleh desain ini.
Para penulis menganggap hal ini signifikan karena memberikan metode untuk meningkatkan kinerja model melalui pemisahan arsitektural peran komputasi.