Los investigadores proponen DiscoLoop, una arquitectura de transformador en bucle que transporta tanto canales de incrustaciones discretas como canales de estados ocultos continuos para mejorar el razonamiento de dos saltos dentro de un solo pase hacia adelante. El método aborda el cuello de botella representacional encontrado en los transformadores en bucle estándar realineando los estados ocultos con las incrustaciones de tokens puente sin entrenamiento adicional.

  • Los Transformers no recurrentes estándar sufren de problemas de almacenamiento local profundo donde los hechos aprendidos en capas anteriores no están disponibles para la recuperación del segundo salto.
  • Los transformadores en bucle anteriores generalizaban imperfectamente porque los estados ocultos permanecían mal alineados con las incrustaciones de tokens puente a pesar de tener entidades decodificables correctamente.
  • DiscoLoop utiliza un diseño de canal mixto que logra una precisión casi perfecta con sustancialmente menos pasos de entrenamiento en tareas de lenguaje simbólico y sintético.
  • En el preentrenamiento del mundo real, la arquitectura alcanza una pérdida de entrenamiento menor y un mejor rendimiento en benchmarks que las bases de transformadores en bucle.

Los autores consideran esto significativo porque el diseño de canal mixto se transfiere al modelado de lenguaje práctico, permitiendo que los modelos internalicen el razonamiento de múltiples pasos de manera más efectiva.