CineCap: Razonamiento estructurado con anclajes espaciotemporales para la descripción de videos cinematográficos

Los investigadores proponen CineCap, un marco que combina razonamiento estructurado con anclajes espaciotemporales y aprendizaje por refuerzo para mejorar la descripción de videos cinematográficos. El método fundamenta descripciones del lenguaje cinematográfico profesional en evidencia visual explícita, equilibrando la exhaustividad descriptiva y la corrección factual.

CineCap utiliza ajuste fino supervisado sobre razonamiento atómico compacto fundamentado en anclajes espaciotemporales.
El aprendizaje por refuerzo aplica recompensas de exhaustividad, precisión y cobertura con puerta para mejorar la calidad de la salida.
Los autores presentan CineCap Bench, un conjunto de datos de evaluación con 472 pares de video-descripción anotados manualmente.
Los experimentos muestran que CineCap supera consistentemente a las bases fuertes propietarias y de código abierto, estableciendo un nuevo estado del arte.

Este trabajo aborda el desafío de generar descripciones abiertas unificadas sobre múltiples dimensiones cinematográficas, apoyando la comprensión detallada de videos y la generación de videos con calidad cinematográfica controlable.