StochasTが確率的ターン深度により視覚インストラクションチューニングを改善

研究者らは、大規模ビジョン言語モデル（LVLMs）におけるマルチターン学習とシングルターン評価の乖離に対処する手法であるStochasTを提案した。このアプローチは、同じ画像に対する言語タスクを確率的にグループ化し、有機的な順序を保ちながら異なるサイズのクラスタにまとめる。

このアプローチは、学習条件とテストシナリオの間のギャップを埋め、視覚的注意の減衰や文脈過学習にもかかわらず、モデルがその全 потенциал を発揮できるようにする。