Explorando representaciones de habla auto-supervisadas en subdialectos del mandarín mediante análisis articulatorio no supervisado

Este estudio investiga cómo se comportan las representaciones fonéticas internas en modelos de habla auto-supervisados bajo variación dialectal fina, abordando las limitaciones de los estudios de sondeo existentes que dependen de corpus curados. Los autores presentan un estudio de caso utilizando una tubería de sondeo completamente no etiquetada para subdialectos del mandarín. Las secuencias de fonemas se generan mediante un reconocedor universal de fonemas independiente del idioma y se mapean a vectores de características articulatorias, permitiendo el sondeo a nivel de fotograma sin anotación manual. Los resultados revelan patrones estructurados en la decodificabilidad de las características articulatorias a través de diferentes dialectos del mandarín. Las características acústicamente salientes como la labialidad y la estridencia permanecen comparativamente estables, mientras que aquellas asociadas con distinciones espectrales más finas muestran una mayor variación dependiente del dialecto. Esta variación está impulsada principalmente por una decodificabilidad elevada para el habla de Pekín en comparación con otros subdialectos. Los análisis capa por capa demuestran dinámicas representacionales distintas para estos grupos de características, lo que sugiere una sensibilidad dialectal desigual a través de las dimensiones articulatorias.