Pesquisadores introduzem o DramaSR-532K, um benchmark em larga escala com 532K linhas de diálogo anotadas para mais de 900 personagens, e propõem o DramaSR-LRM para melhorar o reconhecimento do falante em dramas de TV de longa duração.
- O benchmark DramaSR-532K integra pistas auditivas, linguísticas e visuais para a atribuição complexa de personagens.
- O DramaSR-LRM utiliza um modelo de raciocínio grande (LRM) com uso multimodal de ferramentas para agregar autonomamente evidências contextuais.
- A abordagem supera significativamente as linhas de base existentes, particularmente em utterances curtos onde as biometrias acústicas são pouco confiáveis.
Este trabalho avança a compreensão abrangente de vídeo ao permitir uma atribuição do falante de alta fidelidade em conteúdo longo e desafiador.