Los investigadores presentan DramaSR-532K, una referencia a gran escala con 532K líneas de diálogo anotadas para más de 900 personajes, y proponen DramaSR-LRM para mejorar el reconocimiento del hablante en dramas de TV de formato largo.
- La referencia DramaSR-532K integra pistas auditivas, lingüísticas y visuales para la atribución compleja de personajes.
- DramaSR-LRM utiliza un modelo de razonamiento grande (LRM) con uso multimodal de herramientas para agregar autónomamente evidencia contextual.
- El enfoque supera significativamente a las líneas base existentes, particularmente en utterances cortos donde las biometrías acústicas son poco confiables.
Este trabajo avanza la comprensión integral del video al permitir una atribución del hablante de alta fidelidad en contenido largo y desafiante.