Os autores apresentam o LuxEmo, um corpus de fala expressiva conversacional de 21 horas para o idioma de baixo recurso luxemburguês, com quatro categorias de emoção.

  • O conjunto de dados é derivado das transmissões juvenis da Radio Télévision Luxembourg (RTL).
  • A curadoria usa um fluxo de trabalho semi-automático com detecção de atividade de voz, remoção de ruído, identificação de idioma, segmentação baseada em LuxASR e previsão automática de emoção.
  • Cinco sistemas de TTS expressivo foram avaliados, cobrindo transferência interlingual baseada em alemão, suporte multilíngue, adaptação e transferência de prosódia não paramétrica.

O trabalho aborda a sub-representação do luxemburguês na pesquisa de tecnologia de fala, fornecendo um conjunto de dados validado para o desenvolvimento de TTS expressivo.