Para peneliti mengusulkan StochasT, sebuah metode untuk mengatasi kesenjangan antara pelatihan multi-giliran dan evaluasi satu-giliran pada Model Visi-Bahasa Besar (LVLMs). Pendekatan ini mengelompokkan tugas bahasa untuk gambar yang sama secara stokastik ke dalam kluster dengan ukuran bervariasi sambil mempertahankan urutan organik mereka.

  • StochasT menghindari penghilangan data dengan menggunakan pengelompokan stokastik yang mirip dengan Dropout dan kedalaman stokastik.
  • Mekanisme evaluasi yang agnostik terhadap benchmark berdasarkan Balanced Latin Square mengukur ketahanan di bawah ketergantungan kontekstual yang bervariasi.
  • Eksperimen menunjukkan bahwa metode ini memberikan LVLMs kemampuan kuat untuk kasus penggunaan satu-giliran maupun multi-giliran.

Pendekatan ini membantu menutup kesenjangan antara kondisi pelatihan dan skenario pengujian, memungkinkan model mewujudkan potensi penuhnya meskipun adanya kemunduran perhatian visual dan overfitting kontekstual.