Pesquisadores introduzem o DramaSR-532K, um benchmark em larga escala com 532K linhas de diálogo anotadas para mais de 900 personagens, e propõem o DramaSR-LRM para melhorar o reconhecimento do falante em dramas de TV de longa duração.

  • O benchmark DramaSR-532K integra pistas auditivas, linguísticas e visuais para a atribuição complexa de personagens.
  • O DramaSR-LRM utiliza um modelo de raciocínio grande (LRM) com uso multimodal de ferramentas para agregar autonomamente evidências contextuais.
  • A abordagem supera significativamente as linhas de base existentes, particularmente em utterances curtos onde as biometrias acústicas são pouco confiáveis.

Este trabalho avança a compreensão abrangente de vídeo ao permitir uma atribuição do falante de alta fidelidade em conteúdo longo e desafiador.