Los autores proponen VRRL, un marco de aprendizaje por refuerzo diseñado para permitir que los modelos de visión y lenguaje realicen una autoreflexión visualmente fundamentada durante el razonamiento en cadena de pensamiento.
- VRRL enmascara aleatoriamente los prefijos de la trayectoria durante el entrenamiento para enfatizar la recuperación de predicciones intermedias incorrectas.
- El método introduce roll-ins amortiguados desde un búfer de replay de experiencias para exponer al modelo a diversos estados de fallo.
- La evaluación en tareas de fundamentación visual que involucran tablas y gráficos, así como benchmarks de navegación espacial, muestra mejoras sustanciales en la precisión fuera de distribución en comparación con las líneas base estándar de RL.