Les chercheurs proposent DiscoLoop, une architecture de transformeur en boucle qui transporte à la fois des canaux d'embedding discrets et des canaux d'état caché continus afin d'améliorer le raisonnement à deux sauts au sein d'un seul passage avant. La méthode adresse le goulot d'étranglement représentationnel trouvé dans les transformeurs en boucle standard en réalignant les états cachés avec les embeddings de jetons pont sans entraînement supplémentaire.

  • Les Transformers non-récursifs standards souffrent de problèmes de stockage local à la profondeur où les faits appris dans les couches antérieures ne sont pas disponibles pour la récupération du deuxième saut.
  • Les transformeurs en boucle précédents se généralisaient imparfaitement car les états cachés restaient mal alignés avec les embeddings de jetons pont malgré des entités décodables correctes.
  • DiscoLoop utilise une conception à canaux mixtes qui atteint une précision quasi-parfaite avec substantiellement moins d'étapes d'entraînement sur des tâches symboliques et de langage synthétique.
  • Lors du pré-entraînement réel, l'architecture atteint une perte d'entraînement plus faible et de meilleures performances aux benchmarks que les bases de référence des transformeurs en boucle.

Les auteurs considèrent cela comme significatif car la conception à canaux mixtes se transfère au modélisation linguistique pratique, permettant aux modèles d'intérioriser le raisonnement multi-étapes plus efficacement.