El modelo wav2vec2.0 no muestra evidencia de compensación perceptual para los tones del mandarín en las similitudes de incrustaciones. Los clasificadores de sondeo revelan una compensación limitada y no logran igualar el rendimiento humano en sílabas aisladas, lo que sugiere que se necesita entrenamiento supervisado para la abstracción de regularidades fonológicas.