作者提出了VRRL,一个旨在使视觉-语言模型在思维链推理过程中执行视觉基础自我反思的强化学习框架。

  • VRRL在训练期间随机遮蔽轨迹前缀,以强调从不正确的中间预测中恢复。
  • 该方法从经验回放缓冲区引入缓冲式重入,使模型接触到各种失败状态。
  • 在涉及表格和图表的视觉定位任务以及空间导航基准上的评估显示,与标准强化学习基线相比,分布外准确率有显著提高。