Refleksi Diri Berlandaskan Visual untuk Model Visi-Bahasa melalui Pembelajaran Penguatan

Para penulis mengusulkan VRRL, sebuah kerangka pembelajaran penguatan yang dirancang untuk memungkinkan model visi-bahasa melakukan refleksi diri berlandaskan visual selama penalaran rantai-pemikiran.

VRRL secara acak memmasking awalan lintasan selama pelatihan untuk menekankan pemulihan dari prediksi menengah yang salah.
Metode ini memperkenalkan roll-in terbuffer dari buffer replay pengalaman untuk mengekspos model ke berbagai keadaan kegagalan.
Evaluasi pada tugas grounding visual yang melibatkan tabel dan grafik, serta benchmark navigasi spasial, menunjukkan peningkatan substansial dalam akurasi di luar distribusi dibandingkan dengan baseline RL standar.