LuxEmo: corpus de TTS expresivo en luxemburgués de 21 horas

Los autores presentan LuxEmo, un corpus de voz expresiva conversacional de 21 horas para el idioma de recursos limitados luxemburgués, con cuatro categorías de emociones.

El conjunto de datos se deriva de las transmisiones juveniles de Radio Télévision Luxembourg (RTL).
La curación utiliza un flujo de trabajo semi-automático con detección de actividad de voz, eliminación de ruido, identificación de idioma, segmentación basada en LuxASR y predicción automática de emociones.
Se evaluaron cinco sistemas de TTS expresivo, que cubren transferencia interlingüística basada en alemán, soporte multilingüe, adaptación y transferencia de prosodia no paramétrica.

El trabajo aborda la subrepresentación del luxemburgués en la investigación de tecnología de voz al proporcionar un conjunto de datos validado para el desarrollo de TTS expresivo.