Исследователи представляют DramaSR-532K, крупномасштабный бенчмарк с 532K аннотированными диалоговыми репликами более чем для 900 персонажей, и предлагают DramaSR-LRM для улучшения распознавания говорящего в длинных телевизионных драмах.

  • Бенчмарк DramaSR-532K интегрирует слуховые, лингвистические и визуальные признаки для сложного атрибутирования персонажей.
  • DramaSR-LRM использует большую модель рассуждений (LRM) с мультимодальным использованием инструментов для автономного агрегирования контекстных доказательств.
  • Подход значительно превосходит существующие базовые методы, особенно на коротких высказываниях, где акусические биометрические данные ненадежны.

Эта работа продвигает всестороннее понимание видео, обеспечивая высокоточную атрибуцию говорящего в сложном длинном контенте.