NC-FFN memperkenalkan kuantifier lupa-diri untuk membuat FFN transformer dapat dibaca

Para penulis mengusulkan pengganti netral-parameter untuk jaringan feed-forward (FFN) standar dalam transformer, yang disebut NC-FFN, yang menggunakan operasi himpunan fuzzy eksplisit seperti irisan dan negasi positif terbatas. Desain ini memungkinkan setiap unit tersembunyi membawa bentuk logika eksplisit sambil mempertahankan perplexity baseline GELU pada skala besar.

Untuk mengatasi lokalisasi logika dan penurunan kinerja, model menyertakan blok kuantifier sekuens dengan tingkat lupa yang dipelajari. Pendekatan ini memulihkan defisit tata bahasa di awal pelatihan dan secara moderat meningkatkan skor LAMBADA. FFN yang dihasilkan menjadi dapat dibaca, dengan unit bertindak sebagai detektor lisensi tata bahasa yang aktif pada lisensor seperti komparatif atau item polaritas negatif untuk memprediksi kata-kata yang dilisensikan. Pekerjaan ini menyediakan mekanisme yang dapat dibaca dan diinterpretasikan-by-konstruksi tentang bagaimana FFN transformer melisensikan bahasa, menawarkan penjelasan mengenai representasi dan fungsi.