Les chercheurs présentent LOTUS, une méthode utilisant des Transformers en boucle avec padding pour effectuer un raisonnement multi-étapes dans les états cachés, comblant efficacement l'écart de performance entre la chaîne de pensée (CoT) latente et explicite à l'échelle de 3 milliards de paramètres. Le modèle traite K blocs latents en parallèle pendant R itérations avec une perte d'entropie croisée sur les jetons CoT or.
- LOTUS est la première méthode de CoT latent à égaler la performance du CoT explicite à l'échelle de 3B.
- Il réduit la latence de la phase de réflexion de 2,5x à 6,9x par rapport à la génération token par token.
- La projection des latents post-boucle via la tête LM de base restaure les étapes de raisonnement or et met en lumière des étapes intermédiaires alternatives valides.
- Les ablations confirment que le squelette en boucle et la supervision parallèle sur les jetons CoT or sont essentiels à cette performance.
L'approche démontre que les espaces latents peuvent être interprétables et alignés avec la CoT, offrant une alternative plus efficace à la génération explicite de jetons pour les tâches de raisonnement complexes.