Модели качества речи не улавливают вариативность пронуциации и частоты фундаментальной волны

Модели прогнозирования качества MOS точно отражают акустические искажения, но не обнаруживают ошибки в пронуциации и характеристики речи, такие как частота и темп речи. Люди воспринимают значительное падение качества при таких искажениях, в то время как модели демонстрируют сильные искажения в фундаментальной частоте и не чувствительны к вариативности темпа и частоты фундаментальной волны.