Pesquisadores propõem o DiscoLoop, uma arquitetura de transformer em loop que carrega tanto canais de embedding discretos quanto canais de estado oculto contínuo para melhorar o raciocínio de dois saltos dentro de uma única passagem direta. O método aborda o gargalo representacional encontrado em transformers em loop padrão ao realinhar os estados ocultos com embeddings de tokens de ponte sem treinamento adicional.
- Transformers não recorrentes padrão sofrem de problemas de armazenamento local profundo onde fatos aprendidos em camadas anteriores não estão disponíveis para recuperação do segundo salto.
- Transformers em loop anteriores generalizavam imperfeitamente porque os estados ocultos permaneciam mal alinhados com embeddings de tokens de ponte apesar de entidades decodificáveis corretamente.
- O DiscoLoop utiliza um design de canal misto que alcança precisão quase perfeita com substancialmente menos passos de treinamento em tarefas de linguagem simbólica e sintética.
- No pré-treinamento do mundo real, a arquitetura atinge perda de treinamento menor e desempenho de benchmark mais forte do que as bases de transformers em loop.
Os autores consideram isso significativo porque o design de canal misto se transfere para o modelamento de linguagem prático, permitindo que os modelos internalizem o raciocínio multi-passo de forma mais eficaz.