Autoreflexão Visualmente Fundamentada para Modelos de Visão e Linguagem via Aprendizado por Reforço

Os autores propõem o VRRL, um framework de aprendizado por reforço projetado para permitir que modelos de visão e linguagem realizem autoreflexão visualmente fundamentada durante o raciocínio em cadeia de pensamento.

O VRRL mascara aleatoriamente os prefixos da trajetória durante o treinamento para enfatizar a recuperação de previsões intermediárias incorretas.
O método introduz roll-ins amortecidos de um buffer de replay de experiências para expor o modelo a diversos estados de falha.
A avaliação em tarefas de fundamentação visual envolvendo tabelas e gráficos, bem como benchmarks de navegação espacial, mostra melhorias substanciais na precisão fora da distribuição em comparação com as linhas de base padrão de RL.