LOTUS conecta raciocínio latente e explícito com Transformers em loop

Pesquisadores apresentam o LOTUS, um método que utiliza Transformers em loop com padding para realizar raciocínio multi-etapa em estados ocultos, reduzindo eficazmente a lacuna de desempenho entre chain-of-thought (CoT) latente e explícito na escala de 3B parâmetros. O modelo processa K blocos latentes em paralelo por R iterações com perda de entropia cruzada nos tokens de passos CoT ideais.

LOTUS é o primeiro método latent-CoT que iguala o desempenho do CoT explícito na escala de 3B.
Reduz a latência da fase de pensamento em 2,5x a 6,9x em comparação com a geração token a token.
Projetar os latentes pós-loop através da cabeça LM base recupera os passos de raciocínio ideais e revela passos intermediários alternativos válidos.
Ablações confirmam que tanto o backbone em loop quanto a supervisão paralela nos tokens CoT ideais são essenciais para esse desempenho.

A abordagem demonstra que espaços latentes podem ser interpretáveis e alinhados com CoT, oferecendo uma alternativa mais eficiente à geração explícita de tokens para tarefas de raciocínio complexas.