प्रिज़्म ट्रान्सफॉर्मर एक प्रोग्रेसिव हेड शेड्यूल पेश करता है जो परतों में ध्यान देने वाले हेड की संख्या को बदलता है, जहां शुरुआती परतों में कम, चौड़े हेड होते हैं और गहराई के साथ उनकी संख्या क्रमिक रूप से बढ़ती है। यह दृष्टिकोण प्रारंभिक और बाद की परतों की अलग-अलग संरचनात्मक आवश्यकताओं को पूरा करते हुए, बिना किसी आर्किटेक्चरल ओवरहेड के, मानक समान वितरण को चुनौती देता है।

  • शुरुआती परतें समृद्ध स्थानीय पैटर्न कैप्चरिंग के लिए चौड़े प्रति-हेड सबस्पेस (dh=256) का उपयोग करती हैं, जबकि बाद की परतें विशेष विघटन के लिए कई संकीर्ण हेड का उपयोग करती हैं।
  • वजन मैट्रिक्स मानक dmodel×dmodel आकार बनाए रखते हैं, जिससे पैरामीटर गिनती तटस्थ रहती है।
  • कुल FLOPs हेड गिनती के सापेक्ष गणितीय रूप से अपरिवर्तनीय रहते हैं, जो कंप्यूट तटस्थता सुनिश्चित करते हैं।
  • पावर-ऑफ़-2 हेड डायमेंशन (dh ∈ {256, 128}) थ्रूपुट तटस्थता के लिए टेन्सर कोर एलाइनमेंट को बनाए रखते हैं।
  • परिणाम समान टोकन/सेकंड और वॉल-क्लॉक समय वाले समान आधारों की तुलना में हर स्केल पर कम वैलिडेशन लॉस दिखाते हैं।
  • मॉडल PIQA, WinoGrande, HellaSwag, और ARC-Easy सहित बेंचमार्क्स पर लाभ या समानता प्राप्त करता है।

प्रति-परत एटेंशन-डिस्टेंस विश्लेषण पुष्टि करता है कि लाभ संरचनात्मक है, क्योंकि प्रारंभिक प्रिज़्म परतें वैश्विक एकीकरण से पहले अधिक स्थानीय रूप से ध्यान देती हैं। कार्यान्वयन के लिए हेड गिनती को परत-निर्भर बनाने के लिए प्रति एटेंशन परत में केवल एक लाइन बदलाव की आवश्यकता होती है।