В статье представлен MMEE — многоязычный корпус многоэмоциональных данных, содержащий 10 000 экспрессивных высказываний на семи языках и 34 категории эмоций, предназначенный для оценки моделей обнаружения речевого акцента. В работе оценивается, насколько хорошо эти модели обобщают знания в различных лингвистических и эмоциональных контекстах по сравнению с традиционным обучением на одноязычных нейтральных речевых данных.

  • Корпус MMEE содержит 14,13 часа профессионально записанных высказываний с трехуровневыми перцептивными метками.
  • Одноязычные модели демонстрируют ограниченную способность к zero-shot переносу, особенно ухудшаясь при применении к типологически далеким языкам.
  • Многоязычное обучение существенно повышает устойчивость моделей в различных лингвистических условиях.
  • Модели устойчиво переносят знания между эмоциями с высоким и низким уровнем возбуждения, что указывает на наличие общих просодических структур.
  • Производительность остается стабильной даже при меньших объемах обучающих данных, а также наблюдается двунаправленный перенос между синтетическими и перцептивными бенчмарками.