研究者らは、大規模ビジョン言語モデル(LVLMs)におけるマルチターン学習とシングルターン評価の乖離に対処する手法であるStochasTを提案した。このアプローチは、同じ画像に対する言語タスクを確率的にグループ化し、有機的な順序を保ちながら異なるサイズのクラスタにまとめる。

  • StochasTはDropoutやstochastic depthと同様の確率的グループ化を用いることで、データのドロップを回避する。
  • バランスド・ラテン・スクエアに基づくベンチマーク非依存の評価メカニズムにより、多様な文脈依存性における堅牢性を測定する。
  • 実験結果は、この手法がLVLMsにシングルターンおよびマルチターンの両方のユースケースにおいて強力な能力をもたらすことを示している。

このアプローチは、学習条件とテストシナリオの間のギャップを埋め、視覚的注意の減衰や文脈過学習にもかかわらず、モデルがその全 потенциал を発揮できるようにする。