Исследователи предлагают StochasT, метод для устранения несоответствия между многооборотным обучением и однооборотной оценкой в больших зрительно-языковых моделях (LVLMs). Подход случайным образом группирует языковые задачи для одного изображения в кластеры разного размера, сохраняя их естественный порядок.
- StochasT избегает потери данных за счёт использования стохастической группировки, аналогичной Dropout и stochastic depth.
- Оценка, не зависящая от конкретного бенчмарка, основанная на сбалансированном латинском квадрате, измеряет устойчивость при различных контекстных зависимостях.
- Эксперименты показывают, что метод обеспечивает LVLMs сильные возможности как для однооборотных, так и для многооборотных сценариев использования.
Этот подход помогает сократить разрыв между условиями обучения и тестовыми сценариями, позволяя моделям реализовать свой полный потенциал несмотря на затухание визуального внимания и контекстное переобучение.