Исследователи представляют DramaSR-532K, крупномасштабный бенчмарк с 532K аннотированными диалоговыми репликами более чем для 900 персонажей, и предлагают DramaSR-LRM для улучшения распознавания говорящего в длинных телевизионных драмах.
- Бенчмарк DramaSR-532K интегрирует слуховые, лингвистические и визуальные признаки для сложного атрибутирования персонажей.
- DramaSR-LRM использует большую модель рассуждений (LRM) с мультимодальным использованием инструментов для автономного агрегирования контекстных доказательств.
- Подход значительно превосходит существующие базовые методы, особенно на коротких высказываниях, где акусические биометрические данные ненадежны.
Эта работа продвигает всестороннее понимание видео, обеспечивая высокоточную атрибуцию говорящего в сложном длинном контенте.