StochasT meningkatkan penyetelan instruksi visual dengan kedalaman giliran stokastik

Para peneliti mengusulkan StochasT, sebuah metode untuk mengatasi kesenjangan antara pelatihan multi-giliran dan evaluasi satu-giliran pada Model Visi-Bahasa Besar (LVLMs). Pendekatan ini mengelompokkan tugas bahasa untuk gambar yang sama secara stokastik ke dalam kluster dengan ukuran bervariasi sambil mempertahankan urutan organik mereka.

StochasT menghindari penghilangan data dengan menggunakan pengelompokan stokastik yang mirip dengan Dropout dan kedalaman stokastik.
Mekanisme evaluasi yang agnostik terhadap benchmark berdasarkan Balanced Latin Square mengukur ketahanan di bawah ketergantungan kontekstual yang bervariasi.
Eksperimen menunjukkan bahwa metode ini memberikan LVLMs kemampuan kuat untuk kasus penggunaan satu-giliran maupun multi-giliran.

Pendekatan ini membantu menutup kesenjangan antara kondisi pelatihan dan skenario pengujian, memungkinkan model mewujudkan potensi penuhnya meskipun adanya kemunduran perhatian visual dan overfitting kontekstual.