CineCap: Структурированное рассуждение с пространственно-временными якорями для кинематографического описания видео

Исследователи предлагают CineCap, фреймворк, который объединяет структурированное рассуждение с пространственно-временными якорями и обучением с подкреплением для улучшения кинематографического описания видео. Метод связывает профессиональные описания на языке кино с явными визуальными доказательствами, балансируя между полнотой описания и фактической точностью.

CineCap использует контролируемое тонкое дообучение на компактном атомарном рассуждении, основанном на пространственно-временных якорях.
Обучение с подкреплением применяет вознаграждения за полноту, точность и контролируемую охватываемость для улучшения качества вывода.
Авторы представляют CineCap Bench, бенчмарк из 472 вручную аннотированных пар видео-описание для оценки.
Эксперименты показывают, что CineCap последовательно превосходит сильные проприетарные и открытые базовые модели, устанавливая новое состояние искусства.

Эта работа решает задачу генерации единых описаний в свободной форме по нескольким кинематографическим измерениям, поддерживая детализированное понимание видео и контролируемую генерацию видео кинокачества.