Les auteurs proposent VRRL, un cadre d'apprentissage par renforcement conçu pour permettre aux modèles vision-langage d'effectuer une auto-réflexion ancrée visuellement lors du raisonnement en chaîne de pensée.

  • VRRL masque aléatoirement les préfixes de trajectoire pendant l'entraînement pour mettre l'accent sur la récupération à partir de prédictions intermédiaires incorrectes.
  • La méthode introduit des roll-ins tamponnés depuis un buffer de replay d'expériences pour exposer le modèle à divers états d'échec.
  • L'évaluation sur des tâches d'ancrage visuel impliquant des tableaux et des graphiques, ainsi que sur des benchmarks de navigation spatiale, montre des améliorations substantielles de la précision hors distribution par rapport aux bases RL standard.