Prism Transformer : Programmes de têtes progressifs pour le traitement d'attention hiérarchique
Le Prism Transformer introduit un programme de têtes progressif qui varie le nombre de têtes d'attention entre les couches, en commençant par moins de têtes plus larges dans les premières couches et en augmentant monotoniquement avec la profondeur. Cette approche défie l'allocation uniforme standard en répondant aux besoins structurels distincts des premières et dernières couches sans ajouter de surcharge architecturale.