StochasT通过随机回合深度改进视觉指令微调

研究人员提出了 StochasT，一种解决大型视觉-语言模型（LVLMs）中多轮训练与单轮评估之间差异的方法。该方法将同一图像的多个语言任务随机分组为不同大小的簇，同时保留其有机顺序。

这种方法有助于缩小训练条件与测试场景之间的差距，使模型能够在视觉注意力衰减和上下文过拟合的情况下发挥其全部潜力。