Les chercheurs proposent l'hypothèse de séparation prédiction-état, arguant que le désenchevêtrement de la prédiction du prochain jeton et du stockage d'état conduit à de meilleures performances de modélisation du langage. Ils ont conçu une variante de Transformer utilisant deux flux de calcul pour séparer ces fonctions et ont mené des expériences de pré-entraînement à différentes échelles.

  • L'architecture proposée offre de manière constante de meilleures efficacités en matière de données et de calcul par rapport aux Transformers standards.
  • Elle améliore la perte de validation pendant le pré-entraînement.
  • Elle surpasse les Transformers standards de 2--3 points de pourcentage en moyenne sur les tâches en aval.
  • L'analyse empirique écarte les facteurs de confusion et démontre des différences fondamentales dans les gradients induits par cette conception.

Les auteurs considèrent cela comme significatif car cela fournit une méthode pour améliorer les performances du modèle grâce à la séparation architecturale des rôles computationnels.