Os autores propõem o VRRL, um framework de aprendizado por reforço projetado para permitir que modelos de visão e linguagem realizem autoreflexão visualmente fundamentada durante o raciocínio em cadeia de pensamento.
- O VRRL mascara aleatoriamente os prefixos da trajetória durante o treinamento para enfatizar a recuperação de previsões intermediárias incorretas.
- O método introduz roll-ins amortecidos de um buffer de replay de experiências para expor o modelo a diversos estados de falha.
- A avaliação em tarefas de fundamentação visual envolvendo tabelas e gráficos, bem como benchmarks de navegação espacial, mostra melhorias substanciais na precisão fora da distribuição em comparação com as linhas de base padrão de RL.