Un análisis computacional del Completo de Poemas Tang muestra que los orígenes geográficos de los poetas dejan rastros lingüísticos detectables. Los modelos que utilizan TF-IDF de n-gramas de caracteres y características de dominio logran una precisión de 0.69 en la predicción del origen regional amplio (Sur vs. Norte), superando el azar, y clasifican correctamente orígenes más finos a nivel de circuito. El estudio encuentra que la distancia lingüística entre circuitos se correlaciona con la distancia geográfica, con una divergencia regional que aumenta en el Tang tardío, y destaca los sesgos históricos en el estilo poético del Tang temprano.
Las huellas lingüísticas revelan los orígenes regionales de los poetas Tang
Traducido del English → Español