video-SALMONN-R3: Comprensión eficiente de vídeo mediante aprendizaje por refuerzo

El artículo presenta video-SALMONN-R$^3$, un modelo de lenguaje grande para vídeo de extremo a extremo que permite el re-visualización eficiente de segmentos de vídeo mediante aprendizaje por refuerzo, sin depender de datos de cadena de pensamiento. Este enfoque aborda las limitaciones computacionales y de memoria que típicamente obligan a los modelos a utilizar tasas de fotogramas reducidas y resoluciones espaciales.

El modelo utiliza un paradigma de dos etapas para localizar segmentos relevantes y re-visualizarlos con mayor fidelidad.
Elimina la necesidad de anotaciones costosas de cadena de pensamiento y ajuste fino supervisado, que pueden degradar las capacidades de comprensión de vídeo preentrenadas.
Una estrategia de re-respuesta permite al modelo producir una respuesta directa primero y refinarla después de re-visualizar.
Un mecanismo de re-pregunta reintroduce la consulta al visitar nuevamente los segmentos localizados para mejorar la adherencia a la pregunta.

Los autores consideran esto significativo porque los resultados experimentales muestran que video-SALMONN-R$^3$ supera consistentemente a los modelos base y a los enfoques previos basados en re-visualización, con un costo computacional significativamente menor.