Les auteurs présentent LuxEmo, un corpus de parole conversationnelle expressive de 21 heures pour la langue peu dotée qu'est le luxembourgeois, comprenant quatre catégories d'émotions.
- Le jeu de données est dérivé des émissions jeunesse de Radio Télévision Luxembourg (RTL).
- La curation utilise un workflow semi-automatique avec détection d'activité vocale, débruitage, identification de la langue, segmentation basée sur LuxASR et prédiction automatique des émotions.
- Cinq systèmes TTS expressifs sont évalués, couvrant le transfert inter-langues basé sur l'allemand, le support multilingue, l'adaptation et le transfert de prosodie non paramétrique.
Ce travail répond à la sous-représentation du luxembourgeois dans la recherche sur les technologies de la parole en fournissant un jeu de données validé pour le développement de la synthèse vocale expressive.