Une étude examine si les embeddings contextualisés (CEs) peuvent prédire la durée des mots parlés pour 7470 tokens de mots CV monosyllabiques du mandarin extraits d'un corpus de parole spontanée. Les résultats montrent que les CEs sont prédictifs pour la durée au-dessus du niveau du hasard, tant au niveau des types qu'au niveau des tokens individuels.
- Les durées prédites sont suffisamment précises pour retransformer les contours f0 du temps normalisé à l'échelle de la milliseconde.
- Les contours prédits résultants approximent les contours empiriques et surpassent les bases de permutation.
Cela confirme que les CEs contiennent suffisamment d'informations pour modéliser les aspects temporels de la parole, permettant une synthèse plus précise de la prosodie.