¿Los modelos de énfasis en el habla generalizan entre idiomas y emociones?

El artículo presenta MMEE, un corpus multilingüe y multi-emoción de 10.000 expresiones habladas a través de siete idiomas y 34 categorías emocionales, para evaluar modelos de detección de énfasis en el habla. Evalúa qué tan bien estos modelos generalizan entre diferentes contextos lingüísticos y emocionales en comparación con el entrenamiento tradicional de habla neutra monolingüe.

El corpus MMEE contiene 14.13 horas de expresiones grabadas profesionalmente con etiquetas perceptuales de tres niveles.
Los modelos monolingües muestran una transferencia zero-shot limitada, degradándose particularmente cuando se aplican a idiomas tipológicamente distantes.
El entrenamiento multilingüe mejora sustancialmente la robustez del modelo en diversos entornos lingüísticos.
Los modelos transfieren de manera robusta entre emociones de alta y baja activación, lo que sugiere estructuras prosódicas compartidas.
El rendimiento se mantiene estable incluso a escalas de entrenamiento más pequeñas, y se observa transferencia bidireccional entre benchmarks sintéticos y perceptuales.