Los autores presentan el transformer listo para contexto, una arquitectura de red neuronal recurrente que pre-contextualiza cada token antes de que ingrese a un bloque de transformer D-layer utilizando una red de corrección.

  • La red de corrección combina el resumen en caché de la posición anterior con la incrustación del token actual para crear una entrada contextualizada.
  • La inferencia secuencial opera como una RNN, mientras que el entrenamiento desenrolla el proceso de corrección K veces para procesamiento paralelo.
  • Un transformer preentrenado puede convertirse añadiendo una FFN de corrección inicializada en cero y ajustando finamente.
  • Un modelo D=5 supera a un transformer de 12 capas mientras genera 1.7x más rápido en una A100.
  • Con K=10, un modelo de una sola capa (D=1) supera a un transformer de 6 capas con una aceleración de inferencia de 2.6x y iguala el rendimiento paralelo dentro de 0.01 PPL.
  • La arquitectura se beneficia más de representaciones anchas y contextos largos, resolviendo los 10 niveles de composición en una tarea de persecución de punteros donde los transformers estándar fallan.

Este enfoque permite velocidades de inferencia secuencial significativamente más rápidas mientras mantiene o excede el rendimiento de modelos transformer estándar más profundos.