Pesquisadores apresentam o LOTUS, um método que utiliza Transformers em loop com padding para realizar raciocínio multi-etapa em estados ocultos, reduzindo eficazmente a lacuna de desempenho entre chain-of-thought (CoT) latente e explícito na escala de 3B parâmetros. O modelo processa K blocos latentes em paralelo por R iterações com perda de entropia cruzada nos tokens de passos CoT ideais.
- LOTUS é o primeiro método latent-CoT que iguala o desempenho do CoT explícito na escala de 3B.
- Reduz a latência da fase de pensamento em 2,5x a 6,9x em comparação com a geração token a token.
- Projetar os latentes pós-loop através da cabeça LM base recupera os passos de raciocínio ideais e revela passos intermediários alternativos válidos.
- Ablações confirmam que tanto o backbone em loop quanto a supervisão paralela nos tokens CoT ideais são essenciais para esse desempenho.
A abordagem demonstra que espaços latentes podem ser interpretáveis e alinhados com CoT, oferecendo uma alternativa mais eficiente à geração explícita de tokens para tarefas de raciocínio complexas.