Para peneliti mengusulkan StochasT, sebuah metode untuk mengatasi kesenjangan antara pelatihan multi-giliran dan evaluasi satu-giliran pada Model Visi-Bahasa Besar (LVLMs). Pendekatan ini mengelompokkan tugas bahasa untuk gambar yang sama secara stokastik ke dalam kluster dengan ukuran bervariasi sambil mempertahankan urutan organik mereka.
- StochasT menghindari penghilangan data dengan menggunakan pengelompokan stokastik yang mirip dengan Dropout dan kedalaman stokastik.
- Mekanisme evaluasi yang agnostik terhadap benchmark berdasarkan Balanced Latin Square mengukur ketahanan di bawah ketergantungan kontekstual yang bervariasi.
- Eksperimen menunjukkan bahwa metode ini memberikan LVLMs kemampuan kuat untuk kasus penggunaan satu-giliran maupun multi-giliran.
Pendekatan ini membantu menutup kesenjangan antara kondisi pelatihan dan skenario pengujian, memungkinkan model mewujudkan potensi penuhnya meskipun adanya kemunduran perhatian visual dan overfitting kontekstual.