著者は、低資源言語であるルクセンブルク語向けの21時間分の会話型表現音声コーパス「LuxEmo」を発表しました。このコーパスには4つの感情カテゴリが含まれています。
- データセットはRadio Télévision Luxembourg (RTL)の若者向け放送から派生しています。
- 作成には、音声活動検出、ノイズ除去、言語識別、LuxASRベースのセグメンテーション、自動感情予測を含む半自動ワークフローが使用されました。
- ドイツ語由来の異言語転移、多言語サポート、適応、非パラメトリックな抑揚転送をカバーする5つの表現TTSシステムがベンチマークされています。
この研究は、表現テキスト読み上げ開発のための検証済みデータセットを提供することで、音声技術研究におけるルクセンブルク語の過小代表という課題に対処しています。