研究者らは、900人以上のキャラクターにわたる532Kの注釈付き対話行を含む大規模ベンチマーク「DramaSR-532K」を導入し、長編TVドラマにおける話者認識を強化する「DramaSR-LRM」を提案した。
- DramaSR-532Kベンチマークは、複雑なキャラクターの帰属のために聴覚的、言語的、視覚的手がかりを統合している。
- DramaSR-LRMは、マルチモーダルツール使用により文脈証拠を自律的に集約する大規模推論モデル(LRM)を利用する。
- このアプローチは既存のベースラインを大幅に上回り、特に音響生体認証が信頼できない短い発話において顕著な性能を示す。
この研究は、困難な長編コンテンツにおける高忠実度の話者帰属を可能にすることで、包括的なビデオ理解を進展させる。