arxiv arXiv cs.CL · 2時間前 · research

推論型LLMが長編TVドラマにおける話者認識を向上

翻訳元 English → 日本語

研究者らは、900人以上のキャラクターにわたる532Kの注釈付き対話行を含む大規模ベンチマーク「DramaSR-532K」を導入し、長編TVドラマにおける話者認識を強化する「DramaSR-LRM」を提案した。

DramaSR-532Kベンチマークは、複雑なキャラクターの帰属のために聴覚的、言語的、視覚的手がかりを統合している。
DramaSR-LRMは、マルチモーダルツール使用により文脈証拠を自律的に集約する大規模推論モデル（LRM）を利用する。
このアプローチは既存のベースラインを大幅に上回り、特に音響生体認証が信頼できない短い発話において顕著な性能を示す。

この研究は、困難な長編コンテンツにおける高忠実度の話者帰属を可能にすることで、包括的なビデオ理解を進展させる。

重要度 2/3 arXiv cs.CL Multimodal Research paper

原文を読む