Pesquisadores propõem a hipótese de separação de predição de estado, argumentando que desacoplar a predição do próximo token do armazenamento de estado resulta em melhor desempenho de modelagem de linguagem. Eles projetaram uma variante do Transformer usando dois fluxos de computação para separar essas funções e conduziram experimentos de pré-treinamento em várias escalas.

  • A arquitetura proposta oferece consistentemente melhores eficiências de dados e computação em comparação com os Transformers padrão.
  • Ela melhora a perda de validação durante o pré-treinamento.
  • Ela supera os Transformers padrão em 2--3 pontos percentuais em média em tarefas subsequentes.
  • A análise empírica descarta fatores de confusão e demonstra diferenças fundamentais nos gradientes envolvidos por este design.

Os autores consideram isso significativo pois fornece um método para melhorar o desempenho do modelo através da separação arquitetônica dos papéis computacionais.