Контекстуализованные эмбеддинги предсказывают длительность и высоту тона китайских слов

Исследование изучает, могут ли контекстуализованные эмбеддинги (CEs) предсказывать длительность произнесения слов для 7470 токенов мандаринских моносиллабических CV-слов, извлеченных из корпуса спонтанной речи. Результаты демонстрируют, что CEs являются предиктивными для длительности выше уровня случайного угадывания, как на уровне типов, так и для отдельных токенов.

Предсказанные длительности достаточно точны для обратного преобразования f0 контуров из нормализованного времени в миллисекундный масштаб.
Полученные предсказанные контуры аппроксимируют эмпирические контуры и превосходят пермутационные базовые модели.

Это подтверждает, что CEs содержат достаточную информацию для моделирования временных аспектов речи, что позволяет осуществлять более точный синтез просодии.