연구진은 900개 이상의 캐릭터에 걸쳐 532K개의 주석이 달린 대화 라인을 포함하는 대규모 벤치마크인 DramaSR-532K를 소개하고, 장편 TV 드라마에서 화자 인식을 향상시키기 위한 DramaSR-LRM을 제안합니다.
- DramaSR-532K 벤치마크는 복잡한 캐릭터 귀속을 위해 청각적, 언어적, 시각적 단서를 통합합니다.
- DramaSR-LRM은 다중 모달 도구 사용을 통해 문맥적 증거를 자율적으로 집계하는 대규모 추론 모델(LRM)을 활용합니다.
- 이 접근 방식은 기존 베이스라인을 크게 능가하며, 특히 음성 생체 인증이 신뢰할 수 없는 짧은 발화에서 두드러집니다.
이 작업은 어려운 장형 콘텐츠에서 높은 충실도의 화자 귀속을 가능하게 함으로써 포괄적인 비디오 이해를 발전시킵니다.