El artículo presenta MMEE, un corpus multilingüe y multi-emoción de 10.000 expresiones habladas a través de siete idiomas y 34 categorías emocionales, para evaluar modelos de detección de énfasis en el habla. Evalúa qué tan bien estos modelos generalizan entre diferentes contextos lingüísticos y emocionales en comparación con el entrenamiento tradicional de habla neutra monolingüe.

  • El corpus MMEE contiene 14.13 horas de expresiones grabadas profesionalmente con etiquetas perceptuales de tres niveles.
  • Los modelos monolingües muestran una transferencia zero-shot limitada, degradándose particularmente cuando se aplican a idiomas tipológicamente distantes.
  • El entrenamiento multilingüe mejora sustancialmente la robustez del modelo en diversos entornos lingüísticos.
  • Los modelos transfieren de manera robusta entre emociones de alta y baja activación, lo que sugiere estructuras prosódicas compartidas.
  • El rendimiento se mantiene estable incluso a escalas de entrenamiento más pequeñas, y se observa transferencia bidireccional entre benchmarks sintéticos y perceptuales.