В статье представлен MMEE — многоязычный корпус многоэмоциональных данных, содержащий 10 000 экспрессивных высказываний на семи языках и 34 категории эмоций, предназначенный для оценки моделей обнаружения речевого акцента. В работе оценивается, насколько хорошо эти модели обобщают знания в различных лингвистических и эмоциональных контекстах по сравнению с традиционным обучением на одноязычных нейтральных речевых данных.
- Корпус MMEE содержит 14,13 часа профессионально записанных высказываний с трехуровневыми перцептивными метками.
- Одноязычные модели демонстрируют ограниченную способность к zero-shot переносу, особенно ухудшаясь при применении к типологически далеким языкам.
- Многоязычное обучение существенно повышает устойчивость моделей в различных лингвистических условиях.
- Модели устойчиво переносят знания между эмоциями с высоким и низким уровнем возбуждения, что указывает на наличие общих просодических структур.
- Производительность остается стабильной даже при меньших объемах обучающих данных, а также наблюдается двунаправленный перенос между синтетическими и перцептивными бенчмарками.