Исследователи предлагают CineCap, фреймворк, который объединяет структурированное рассуждение с пространственно-временными якорями и обучением с подкреплением для улучшения кинематографического описания видео. Метод связывает профессиональные описания на языке кино с явными визуальными доказательствами, балансируя между полнотой описания и фактической точностью.
- CineCap использует контролируемое тонкое дообучение на компактном атомарном рассуждении, основанном на пространственно-временных якорях.
- Обучение с подкреплением применяет вознаграждения за полноту, точность и контролируемую охватываемость для улучшения качества вывода.
- Авторы представляют CineCap Bench, бенчмарк из 472 вручную аннотированных пар видео-описание для оценки.
- Эксперименты показывают, что CineCap последовательно превосходит сильные проприетарные и открытые базовые модели, устанавливая новое состояние искусства.
Эта работа решает задачу генерации единых описаний в свободной форме по нескольким кинематографическим измерениям, поддерживая детализированное понимание видео и контролируемую генерацию видео кинокачества.