한 연구는 맥락적 임베딩(CEs)이 자발적 음성 코퍼스에서 추출한 7470개의 중국어 단음절 CV 단어의 spoken word duration을 예측할 수 있는지 조사합니다. 결과는 CEs가 유형 레벨과 개별 토큰 레벨 모두에서 우연 수준 이상의 지속 시간 예측에 유효함을 보여줍니다.
- 예측된 지속 시간은 정규화된 시간에서 밀리초 스케일로 f0 컨투어를 역변환하기에 충분한 정밀도를 가집니다.
- 결과적으로 얻은 예측 컨투어는 실험적 컨투어에 근사하며 순열 기반선보다 성능이 우수합니다.
이는 CEs가 음성의 시간적 측면을 모델링하는 데 충분한 정보를 포함하고 있어 운율의 더 정확한 합성을 가능하게 함을 확인해 줍니다.