Para penulis mengusulkan VRRL, sebuah kerangka pembelajaran penguatan yang dirancang untuk memungkinkan model visi-bahasa melakukan refleksi diri berlandaskan visual selama penalaran rantai-pemikiran.

  • VRRL secara acak memmasking awalan lintasan selama pelatihan untuk menekankan pemulihan dari prediksi menengah yang salah.
  • Metode ini memperkenalkan roll-in terbuffer dari buffer replay pengalaman untuk mengekspos model ke berbagai keadaan kegagalan.
  • Evaluasi pada tugas grounding visual yang melibatkan tabel dan grafik, serta benchmark navigasi spasial, menunjukkan peningkatan substansial dalam akurasi di luar distribusi dibandingkan dengan baseline RL standar.