Para peneliti mengusulkan DiscoLoop, sebuah arsitektur transformer berulang yang membawa saluran embedding diskrit dan saluran keadaan tersembunyi kontinu untuk meningkatkan penalaran dua-hop dalam satu lewatan maju. Metode ini mengatasi bottleneck representasi yang ditemukan pada transformer berulang standar dengan menyelaraskan kembali keadaan tersembunyi dengan embedding token jembatan tanpa pelatihan tambahan.
- Transformer non-rekuren standar menderita masalah penyimpanan lokal kedalaman di mana fakta yang dipelajari di lapisan sebelumnya tidak tersedia untuk pengambilan dua-hop.
- Transformer berulang sebelumnya secara tidak sempurna menggeneralisasi karena keadaan tersembunyi tetap kurang selaras dengan embedding token jembatan meskipun entitas yang dapat didekodekan benar.
- DiscoLoop memanfaatkan desain saluran campuran yang mencapai akurasi hampir sempurna dengan langkah pelatihan jauh lebih sedikit pada tugas simbolik dan bahasa sintetis.
- Dalam pra-pelatihan dunia nyata, arsitektur ini mencapai kerugian pelatihan yang lebih rendah dan kinerja benchmark yang lebih kuat dibandingkan baseline transformer berulang.
Para penulis menganggap ini signifikan karena desain saluran campuran ditransfer ke pemodelan bahasa praktis, memungkinkan model untuk menginternalisasi penalaran multi-langkah dengan lebih efektif.