Para penulis mengusulkan VRRL, sebuah kerangka pembelajaran penguatan yang dirancang untuk memungkinkan model visi-bahasa melakukan refleksi diri berlandaskan visual selama penalaran rantai-pemikiran.
- VRRL secara acak memmasking awalan lintasan selama pelatihan untuk menekankan pemulihan dari prediksi menengah yang salah.
- Metode ini memperkenalkan roll-in terbuffer dari buffer replay pengalaman untuk mengekspos model ke berbagai keadaan kegagalan.
- Evaluasi pada tugas grounding visual yang melibatkan tabel dan grafik, serta benchmark navigasi spasial, menunjukkan peningkatan substansial dalam akurasi di luar distribusi dibandingkan dengan baseline RL standar.