Los modelos de habla auto-supervisados carecen de compensación del contexto tonal

El modelo wav2vec2.0 no muestra evidencia de compensación perceptual para los tones del mandarín en las similitudes de incrustaciones. Los clasificadores de sondeo revelan una compensación limitada y no logran igualar el rendimiento humano en sílabas aisladas, lo que sugiere que se necesita entrenamiento supervisado para la abstracción de regularidades fonológicas.