video-SALMONN-R3: Comprensión eficiente de vídeo mediante aprendizaje por refuerzo
El artículo presenta video-SALMONN-R$^3$, un modelo de lenguaje grande para vídeo de extremo a extremo que permite el re-visualización eficiente de segmentos de vídeo mediante aprendizaje por refuerzo, sin depender de datos de cadena de pensamiento. Este enfoque aborda las limitaciones computacionales y de memoria que típicamente obligan a los modelos a utilizar tasas de fotogramas reducidas y resoluciones espaciales.