研究人员推出了DramaSR-532K,这是一个包含超过900个角色的532K条标注对话行的大规模基准数据集,并提出了DramaSR-LRM以增强长剧集电视剧中的说话人识别。

  • DramaSR-532K基准集成了听觉、语言和视觉线索,用于复杂的角色归属。
  • DramaSR-LRM利用具有多模态工具使用能力的大型推理模型(LRM)自主聚合上下文证据。
  • 该方法显著优于现有基线,特别是在声学生物特征不可靠的短话语中表现突出。

这项工作通过在高难度长格式内容中实现高保真说话人归属,推动了全面的视频理解。