Um estudo investiga se os embezzamentos contextualizados (CEs) podem prever a duração das palavras faladas para 7470 tokens de palavras monossilábicas CV do mandarim extraídas de um corpus de fala espontânea. Os resultados demonstram que os CEs são preditivos para a duração acima do nível de acaso, tanto no nível de tipo quanto para tokens individuais.

  • As durações previstas são precisas o suficiente para retrotransformar os contornos f0 do tempo normalizado para a escala de milissegundos.
  • Os contornos previstos resultantes aproximam os contornos empíricos e superam as linhas de base de permutação.

Isso confirma que os CEs contêm informação suficiente para modelar os aspectos temporais da fala, permitindo uma síntese mais precisa da prosódia.