CineCap: Razonamiento estructurado con anclajes espaciotemporales para la descripción de videos cinematográficos
Los investigadores proponen CineCap, un marco que combina razonamiento estructurado con anclajes espaciotemporales y aprendizaje por refuerzo para mejorar la descripción de videos cinematográficos. El método fundamenta descripciones del lenguaje cinematográfico profesional en evidencia visual explícita, equilibrando la exhaustividad descriptiva y la corrección factual.