Prism Transformer memperkenalkan jadwal kepala progresif yang bervariasi jumlah kepala perhatian di seluruh lapisan, dimulai dengan lebih sedikit kepala lebar di lapisan awal dan meningkat secara monoton seiring kedalaman. Pendekatan ini menantang alokasi seragam standar dengan memenuhi kebutuhan struktural yang berbeda antara lapisan awal dan akhir tanpa menambah overhead arsitektur.

  • Lapisan awal memanfaatkan subruang per kepala yang lebar (dh=256) untuk menangkap pola lokal yang kaya, sementara lapisan akhir menggunakan banyak kepala sempit untuk dekomposisi terspesialisasi.
  • Matriks bobot mempertahankan bentuk standar dmodel×dmodel, menjaga jumlah parameter tetap netral.
  • Total FLOPs tetap secara matematis invarian terhadap jumlah kepala, memastikan netralitas komputasi.
  • Dimensi kepala pangkat-2 (dh ∈ {256, 128}) menjaga penjajaran Tensor Core untuk netralitas throughput.
  • Hasil menunjukkan kerugian validasi yang lebih rendah di setiap skala dibandingkan dengan baseline seragam dengan token/detik dan waktu dinding yang identik.
  • Model mencapai peningkatan atau kesetaraan pada benchmark termasuk PIQA, WinoGrande, HellaSwag, dan ARC-Easy.

Analisis jarak perhatian per lapisan mengonfirmasi bahwa keuntungan tersebut bersifat struktural, karena lapisan Prism awal memperhatikan lebih lokal sebelum beralih ke integrasi global. Implementasi hanya memerlukan perubahan satu baris per lapisan perhatian untuk membuat jumlah kepala bergantung pada lapisan.