Los investigadores proponen CineCap, un marco que combina razonamiento estructurado con anclajes espaciotemporales y aprendizaje por refuerzo para mejorar la descripción de videos cinematográficos. El método fundamenta descripciones del lenguaje cinematográfico profesional en evidencia visual explícita, equilibrando la exhaustividad descriptiva y la corrección factual.
- CineCap utiliza ajuste fino supervisado sobre razonamiento atómico compacto fundamentado en anclajes espaciotemporales.
- El aprendizaje por refuerzo aplica recompensas de exhaustividad, precisión y cobertura con puerta para mejorar la calidad de la salida.
- Los autores presentan CineCap Bench, un conjunto de datos de evaluación con 472 pares de video-descripción anotados manualmente.
- Los experimentos muestran que CineCap supera consistentemente a las bases fuertes propietarias y de código abierto, estableciendo un nuevo estado del arte.
Este trabajo aborda el desafío de generar descripciones abiertas unificadas sobre múltiples dimensiones cinematográficas, apoyando la comprensión detallada de videos y la generación de videos con calidad cinematográfica controlable.