arxiv arXiv cs.CL · 2 小时前 · research

推理大语言模型提升长剧集电视剧中的说话人识别

译自 English → 中文

研究人员推出了DramaSR-532K，这是一个包含超过900个角色的532K条标注对话行的大规模基准数据集，并提出了DramaSR-LRM以增强长剧集电视剧中的说话人识别。

DramaSR-532K基准集成了听觉、语言和视觉线索，用于复杂的角色归属。
DramaSR-LRM利用具有多模态工具使用能力的大型推理模型（LRM）自主聚合上下文证据。
该方法显著优于现有基线，特别是在声学生物特征不可靠的短话语中表现突出。

这项工作通过在高难度长格式内容中实现高保真说话人归属，推动了全面的视频理解。

重要性 2/3 arXiv cs.CL Multimodal Research paper