Reasoning LLM улучшает распознавание говорящего в длинных телевизионных драмах

Исследователи представляют DramaSR-532K, крупномасштабный бенчмарк с 532K аннотированными диалоговыми репликами более чем для 900 персонажей, и предлагают DramaSR-LRM для улучшения распознавания говорящего в длинных телевизионных драмах.

Бенчмарк DramaSR-532K интегрирует слуховые, лингвистические и визуальные признаки для сложного атрибутирования персонажей.
DramaSR-LRM использует большую модель рассуждений (LRM) с мультимодальным использованием инструментов для автономного агрегирования контекстных доказательств.
Подход значительно превосходит существующие базовые методы, особенно на коротких высказываниях, где акусические биометрические данные ненадежны.

Эта работа продвигает всестороннее понимание видео, обеспечивая высокоточную атрибуцию говорящего в сложном длинном контенте.