يقدم محول البريزم جدول رؤوس تدريجيًا يغير عدد رؤوس الانتباه عبر الطبقات، بدءًا من عدد أقل من الرؤوس العريضة في الطبقات الأولى وزيادة العدد بشكل رتيب مع العمق. يتحدى هذا النهج التوزيع الموحد القياسي من خلال معالجة الاحتياجات الهيكلية المميزة للطبقات المبكرة مقابل المتأخرة دون إضافة عبء معماري.
- تستخدم الطبقات المبكرة فضاءات فرعية عريضة لكل رأس (dh=256) لالتقاط الأنماط المحلية الغنية، بينما تستخدم الطبقات المتأخرة العديد من الرؤوس الضيقة للتفكيك المتخصص.
- تحتفظ مصفوفات الأوزان بأشكال dmodel×dmodel القياسية، مما يبقي عدد المعلمات محايدًا.
- تظل عمليات الفلوب الإجمالية ثابتة رياضيًا بالنسبة لعدد الرؤوس، مما يضمن حياد الحساب.
- تحافظ أبعاد الرؤوس من قوى العدد 2 (dh ∈ {256, 128}) على محاذاة نوى Tensor للحياد في الإنتاجية.
- تظهر النتائج انخفاضًا في فقدان التحقق عبر كل المقاييس مقارنة بالأساسيات الموحدة مع نفس عدد الرموز/الثانية والزمن الفعلي.
- يحقق النموذج مكاسب أو مساواة في الاختبارات المعيارية بما في ذلك PIQA وWinoGrande وHellaSwag وARC-Easy.
يؤكد تحليل مسافة الانتباه لكل طبقة أن المكسب هيكلي، حيث تركز طبقات Prism المبكرة محليًا قبل التحول إلى التكامل العالمي. يتطلب التنفيذ تغيير سطر واحد فقط لكل طبقة انتباه لجعل عدد الرؤوس يعتمد على الطبقة.