CineCap: Структурированное рассуждение с пространственно-временными якорями для кинематографического описания видео
Исследователи предлагают CineCap, фреймворк, который объединяет структурированное рассуждение с пространственно-временными якорями и обучением с подкреплением для улучшения кинематографического описания видео. Метод связывает профессиональные описания на языке кино с явными визуальными доказательствами, балансируя между полнотой описания и фактической точностью.