研究人员提出了 StochasT,一种解决大型视觉-语言模型(LVLMs)中多轮训练与单轮评估之间差异的方法。该方法将同一图像的多个语言任务随机分组为不同大小的簇,同时保留其有机顺序。

  • StochasT 通过使用类似于 Dropout 和 stochastic depth 的随机分组来避免丢弃数据。
  • 基于平衡拉丁方的基准无关评估机制衡量在不同上下文依赖下的鲁棒性。
  • 实验表明,该方法赋予 LVLMs 在单轮和多轮用例中均具备强大的能力。

这种方法有助于缩小训练条件与测试场景之间的差距,使模型能够在视觉注意力衰减和上下文过拟合的情况下发挥其全部潜力。