StochasT улучшает визуальное обучение инструкциям с помощью стохастической глубины поворота

Исследователи предлагают StochasT, метод для устранения несоответствия между многооборотным обучением и однооборотной оценкой в больших зрительно-языковых моделях (LVLMs). Подход случайным образом группирует языковые задачи для одного изображения в кластеры разного размера, сохраняя их естественный порядок.

StochasT избегает потери данных за счёт использования стохастической группировки, аналогичной Dropout и stochastic depth.
Оценка, не зависящая от конкретного бенчмарка, основанная на сбалансированном латинском квадрате, измеряет устойчивость при различных контекстных зависимостях.
Эксперименты показывают, что метод обеспечивает LVLMs сильные возможности как для однооборотных, так и для многооборотных сценариев использования.

Этот подход помогает сократить разрыв между условиями обучения и тестовыми сценариями, позволяя моделям реализовать свой полный потенциал несмотря на затухание визуального внимания и контекстное переобучение.