arxiv arXiv cs.CL · 1時間前 · research

強化学習によるビジョン・言語モデルの視覚的に grounded な自己反映

翻訳元 English → 日本語

著者は、ビジョン・言語モデルが思考チェーン推論中に視覚的に grounded な自己反映を行えるように設計された強化学習フレームワークであるVRRLを提案する。

VRRLは訓練中に軌道接頭辞をランダムにマスクし、誤った中間予測からの回復を強調する。
この手法は、経験再生バッファからのバファードロールインを導入し、多様な失敗状態をモデルに曝露させる。
表やチャートを含む視覚的グラウンディングタスクおよび空間ナビゲーションベンチマークでの評価は、標準的なRLベースラインと比較して分布外精度の大幅な向上を示している。

重要度 2/3 arXiv cs.CL Research paper Training methods

原文を読む