video-SALMONN-R3: Эффективное понимание видео с помощью обучения с подкреплением
В статье представлен video-SALMONN-R$^3$, сквозная большая языковая модель для видео, которая обеспечивает эффективное повторное просмотр сегментов видео с использованием обучения с подкреплением без опоры на данные цепочки рассуждений (chain-of-thought). Этот подход решает проблемы вычислительных ограничений и ограничений памяти, которые обычно заставляют модели использовать пониженную частоту кадров и пространственное разрешение.