맥락적 임베딩이 중국어 단어 지속 시간과 피치를 예측한다

한 연구는 맥락적 임베딩(CEs)이 자발적 음성 코퍼스에서 추출한 7470개의 중국어 단음절 CV 단어의 spoken word duration을 예측할 수 있는지 조사합니다. 결과는 CEs가 유형 레벨과 개별 토큰 레벨 모두에서 우연 수준 이상의 지속 시간 예측에 유효함을 보여줍니다.

예측된 지속 시간은 정규화된 시간에서 밀리초 스케일로 f0 컨투어를 역변환하기에 충분한 정밀도를 가집니다.
결과적으로 얻은 예측 컨투어는 실험적 컨투어에 근사하며 순열 기반선보다 성능이 우수합니다.

이는 CEs가 음성의 시간적 측면을 모델링하는 데 충분한 정보를 포함하고 있어 운율의 더 정확한 합성을 가능하게 함을 확인해 줍니다.