Обобщают ли модели выделения речевого акцента свои способности для разных языков и эмоций?

В статье представлен MMEE — многоязычный корпус многоэмоциональных данных, содержащий 10 000 экспрессивных высказываний на семи языках и 34 категории эмоций, предназначенный для оценки моделей обнаружения речевого акцента. В работе оценивается, насколько хорошо эти модели обобщают знания в различных лингвистических и эмоциональных контекстах по сравнению с традиционным обучением на одноязычных нейтральных речевых данных.

Корпус MMEE содержит 14,13 часа профессионально записанных высказываний с трехуровневыми перцептивными метками.
Одноязычные модели демонстрируют ограниченную способность к zero-shot переносу, особенно ухудшаясь при применении к типологически далеким языкам.
Многоязычное обучение существенно повышает устойчивость моделей в различных лингвистических условиях.
Модели устойчиво переносят знания между эмоциями с высоким и низким уровнем возбуждения, что указывает на наличие общих просодических структур.
Производительность остается стабильной даже при меньших объемах обучающих данных, а также наблюдается двунаправленный перенос между синтетическими и перцептивными бенчмарками.