Les chercheurs présentent DramaSR-532K, un benchmark à grande échelle avec 532K lignes de dialogue annotées sur plus de 900 personnages, et proposent DramaSR-LRM pour améliorer la reconnaissance du locuteur dans les drames TV longs.

  • Le benchmark DramaSR-532K intègre des indices auditifs, linguistiques et visuels pour l'attribution complexe des personnages.
  • DramaSR-LRM utilise un grand modèle de raisonnement (LRM) avec une utilisation d'outils multimodaux pour agréger autonomement les preuves contextuelles.
  • L'approche surpasse significativement les bases de référence existantes, en particulier sur les énoncés courts où les biométries acoustiques sont peu fiables.

Ce travail fait progresser la compréhension vidéo complète en permettant une attribution du locuteur de haute fidélité dans des contenus longs et difficiles.