Les chercheurs présentent LOTUS, une méthode utilisant des Transformers en boucle avec padding pour effectuer un raisonnement multi-étapes dans les états cachés, comblant efficacement l'écart de performance entre la chaîne de pensée (CoT) latente et explicite à l'échelle de 3 milliards de paramètres. Le modèle traite K blocs latents en parallèle pendant R itérations avec une perte d'entropie croisée sur les jetons CoT or.

  • LOTUS est la première méthode de CoT latent à égaler la performance du CoT explicite à l'échelle de 3B.
  • Il réduit la latence de la phase de réflexion de 2,5x à 6,9x par rapport à la génération token par token.
  • La projection des latents post-boucle via la tête LM de base restaure les étapes de raisonnement or et met en lumière des étapes intermédiaires alternatives valides.
  • Les ablations confirment que le squelette en boucle et la supervision parallèle sur les jetons CoT or sont essentiels à cette performance.

L'approche démontre que les espaces latents peuvent être interprétables et alignés avec la CoT, offrant une alternative plus efficace à la génération explicite de jetons pour les tâches de raisonnement complexes.