DiscoLoop introduz embeddings discretos e estados ocultos contínuos para raciocínio multi-hop

Pesquisadores propõem o DiscoLoop, uma arquitetura de transformer em loop que carrega tanto canais de embedding discretos quanto canais de estado oculto contínuo para melhorar o raciocínio de dois saltos dentro de uma única passagem direta. O método aborda o gargalo representacional encontrado em transformers em loop padrão ao realinhar os estados ocultos com embeddings de tokens de ponte sem treinamento adicional.

Transformers não recorrentes padrão sofrem de problemas de armazenamento local profundo onde fatos aprendidos em camadas anteriores não estão disponíveis para recuperação do segundo salto.
Transformers em loop anteriores generalizavam imperfeitamente porque os estados ocultos permaneciam mal alinhados com embeddings de tokens de ponte apesar de entidades decodificáveis corretamente.
O DiscoLoop utiliza um design de canal misto que alcança precisão quase perfeita com substancialmente menos passos de treinamento em tarefas de linguagem simbólica e sintética.
No pré-treinamento do mundo real, a arquitetura atinge perda de treinamento menor e desempenho de benchmark mais forte do que as bases de transformers em loop.

Os autores consideram isso significativo porque o design de canal misto se transfere para o modelamento de linguagem prático, permitindo que os modelos internalizem o raciocínio multi-passo de forma mais eficaz.