著者は、ビジョン・言語モデルが思考チェーン推論中に視覚的に grounded な自己反映を行えるように設計された強化学習フレームワークであるVRRLを提案する。

  • VRRLは訓練中に軌道接頭辞をランダムにマスクし、誤った中間予測からの回復を強調する。
  • この手法は、経験再生バッファからのバファードロールインを導入し、多様な失敗状態をモデルに曝露させる。
  • 表やチャートを含む視覚的グラウンディングタスクおよび空間ナビゲーションベンチマークでの評価は、標準的なRLベースラインと比較して分布外精度の大幅な向上を示している。