Los investigadores presentan LOTUS, un método que utiliza Transformers en bucle con padding para realizar razonamiento multi-paso en estados ocultos, reduciendo eficazmente la brecha de rendimiento entre el chain-of-thought (CoT) latente y explícito a escala de 3B parámetros. El modelo procesa K bloques latentes en paralelo durante R iteraciones con pérdida de entropía cruzada en tokens de pasos CoT dorados.

  • LOTUS es el primer método latent-CoT que iguala el rendimiento del CoT explícito a escala de 3B.
  • Reduce la latencia de la fase de pensamiento entre 2.5x y 6.9x en comparación con la generación token por token.
  • Proyectar los latentes posteriores al bucle a través de la cabeza LM base recupera los pasos de razonamiento dorados y revela pasos intermedios alternativos válidos.
  • Las ablationes confirman que tanto el backbone en bucle como la supervisión paralela en tokens CoT dorados son esenciales para este rendimiento.

El enfoque demuestra que los espacios latentes pueden ser interpretables y alineados con CoT, ofreciendo una alternativa más eficiente a la generación explícita de tokens para tareas de razonamiento complejas.