ScenA: Generación de Escenas de Audio Multi-Parlante Basada en Referencias

ScenA condiciona un modelo base de texto a audio en múltiples voces de referencia y una descripción de escena en lenguaje natural para generar conversaciones realistas multi-parlante. Aborda el problema del 'Atajo de Referencia' mediante un programa de entrenamiento con sesgo hacia alto ruido, asegurando que la asignación del hablante dependa de las indicaciones de texto en lugar de la similitud acústica. Evaluado en CoVoMix2-Dialogue, ScenA supera a los sistemas existentes en la vinculación de hablantes y produce audio rico y naturalista con habla superpuesta y ruido ambiental.