Los embeddings contextualizados predicen la duración y el tono de las palabras en mandarín

Un estudio investiga si los embeddings contextualizados (CEs) pueden predecir la duración de las palabras habladas para 7470 tokens de palabras monosilábicas CV del mandarín extraídas de un corpus de habla espontánea. Los resultados demuestran que los CEs son predictivos para la duración por encima del nivel de azar, tanto a nivel de tipo como para tokens individuales.

Las duraciones predichas son lo suficientemente precisas como para retrotransformar los contornos f0 desde el tiempo normalizado a la escala de milisegundos.
Los contornos predichos resultantes aproximan los contornos empíricos y superan las líneas base de permutación.

Esto confirma que los CEs contienen información suficiente para modelar los aspectos temporales del habla, permitiendo una síntesis más precisa de la prosodia.