LOTUS relie le raisonnement latent et explicite via des Transformers en boucle

Les chercheurs présentent LOTUS, une méthode utilisant des Transformers en boucle avec padding pour effectuer un raisonnement multi-étapes dans les états cachés, comblant efficacement l'écart de performance entre la chaîne de pensée (CoT) latente et explicite à l'échelle de 3 milliards de paramètres. Le modèle traite K blocs latents en parallèle pendant R itérations avec une perte d'entropie croisée sur les jetons CoT or.

LOTUS est la première méthode de CoT latent à égaler la performance du CoT explicite à l'échelle de 3B.
Il réduit la latence de la phase de réflexion de 2,5x à 6,9x par rapport à la génération token par token.
La projection des latents post-boucle via la tête LM de base restaure les étapes de raisonnement or et met en lumière des étapes intermédiaires alternatives valides.
Les ablations confirment que le squelette en boucle et la supervision parallèle sur les jetons CoT or sont essentiels à cette performance.

L'approche démontre que les espaces latents peuvent être interprétables et alignés avec la CoT, offrant une alternative plus efficace à la génération explicite de jetons pour les tâches de raisonnement complexes.