Autoreflexión visualmente fundamentada para modelos de visión y lenguaje mediante aprendizaje por refuerzo

Los autores proponen VRRL, un marco de aprendizaje por refuerzo diseñado para permitir que los modelos de visión y lenguaje realicen una autoreflexión visualmente fundamentada durante el razonamiento en cadena de pensamiento.

VRRL enmascara aleatoriamente los prefijos de la trayectoria durante el entrenamiento para enfatizar la recuperación de predicciones intermedias incorrectas.
El método introduce roll-ins amortiguados desde un búfer de replay de experiencias para exponer al modelo a diversos estados de fallo.
La evaluación en tareas de fundamentación visual que involucran tablas y gráficos, así como benchmarks de navegación espacial, muestra mejoras sustanciales en la precisión fuera de distribución en comparación con las líneas base estándar de RL.