video-SALMONN-R3: Эффективное понимание видео с помощью обучения с подкреплением

В статье представлен video-SALMONN-R$^3$, сквозная большая языковая модель для видео, которая обеспечивает эффективное повторное просмотр сегментов видео с использованием обучения с подкреплением без опоры на данные цепочки рассуждений (chain-of-thought). Этот подход решает проблемы вычислительных ограничений и ограничений памяти, которые обычно заставляют модели использовать пониженную частоту кадров и пространственное разрешение.

Модель использует двухэтапный подход для локализации релевантных сегментов и их повторного просмотра с более высокой детализацией.
Она устраняет необходимость в дорогостоящих аннотациях цепочки рассуждений и контролируемой тонкой настройке, которые могут ухудшить способности к пониманию видео, полученные при предварительном обучении.
Стратегия повторного ответа позволяет модели сначала дать прямой ответ, а затем уточнить его после повторного просмотра.
Механизм повторного запроса повторно вводит вопрос при возвращении к локализованным сегментам для улучшения соответствия заданию.

Авторы считают это значимым, поскольку экспериментальные результаты показывают, что video-SALMONN-R$^3$ стабильно превосходит базовые модели и предыдущие подходы на основе повторного просмотра при значительно меньших вычислительных затратах.