Los investigadores proponen la hipótesis de separación de predicción de estado, argumentando que desacoplar la predicción del siguiente token del almacenamiento de estados produce un mejor rendimiento en el modelado de lenguaje. Diseñaron una variante de Transformer que utiliza dos flujos de cómputo para separar estas funciones y realizaron experimentos de preentrenamiento en varias escalas.
- La arquitectura propuesta ofrece consistentemente mejores eficiencias de datos y cómputo en comparación con los Transformers estándar.
- Mejora la pérdida de validación durante el preentrenamiento.
- Supera a los Transformers estándar entre 2--3 puntos porcentuales en promedio en tareas posteriores.
- El análisis empírico descarta factores de confusión y demuestra diferencias fundamentales en los gradientes implicados por este diseño.
Los autores consideran esto significativo ya que proporciona un método para mejorar el rendimiento del modelo mediante la separación arquitectónica de los roles computacionales.