Los modelos de predicción MOS capturan con precisión la degradación acústica, pero no logran detectar errores prosódicos ni características específicas del hablante, como el tono y la velocidad del habla. Los oyentes humanos perciben caídas significativas en la calidad ante estas perturbaciones, mientras que los modelos muestran fuertes sesgos en la frecuencia fundamental y carecen de sensibilidad ante la velocidad del habla y la variabilidad de F0.
Los modelos de calidad de voz fallan en capturar la variabilidad prosódica y de F0
Traducido del English → Español