Prism Transformer: Jadwal Kepala Progresif untuk Pemrosesan Perhatian Hierarkis
Prism Transformer memperkenalkan jadwal kepala progresif yang bervariasi jumlah kepala perhatian di seluruh lapisan, dimulai dengan lebih sedikit kepala lebar di lapisan awal dan meningkat secara monoton seiring kedalaman. Pendekatan ini menantang alokasi seragam standar dengan memenuhi kebutuhan struktural yang berbeda antara lapisan awal dan akhir tanpa menambah overhead arsitektur.