Los autores proponen VRRL, un marco de aprendizaje por refuerzo diseñado para permitir que los modelos de visión y lenguaje realicen una autoreflexión visualmente fundamentada durante el razonamiento en cadena de pensamiento.

  • VRRL enmascara aleatoriamente los prefijos de la trayectoria durante el entrenamiento para enfatizar la recuperación de predicciones intermedias incorrectas.
  • El método introduce roll-ins amortiguados desde un búfer de replay de experiencias para exponer al modelo a diversos estados de fallo.
  • La evaluación en tareas de fundamentación visual que involucran tablas y gráficos, así como benchmarks de navegación espacial, muestra mejoras sustanciales en la precisión fuera de distribución en comparación con las líneas base estándar de RL.