Исследование изучает, могут ли контекстуализованные эмбеддинги (CEs) предсказывать длительность произнесения слов для 7470 токенов мандаринских моносиллабических CV-слов, извлеченных из корпуса спонтанной речи. Результаты демонстрируют, что CEs являются предиктивными для длительности выше уровня случайного угадывания, как на уровне типов, так и для отдельных токенов.
- Предсказанные длительности достаточно точны для обратного преобразования f0 контуров из нормализованного времени в миллисекундный масштаб.
- Полученные предсказанные контуры аппроксимируют эмпирические контуры и превосходят пермутационные базовые модели.
Это подтверждает, что CEs содержат достаточную информацию для моделирования временных аспектов речи, что позволяет осуществлять более точный синтез просодии.