Лингвистические отпечатки раскрывают региональные происхождения таньских поэтов
Компьютерный анализ полного собрания таньских поэзий показывает, что географические происхождения поэтов оставляют заметные лингвистические следы. Модели, использующие характеристики n-грамм символов TF-IDF и доменных признаков, достигают точности 0,69 при предсказании широких региональных происхождений (юг против севера), превышающей случайность, и корректно классифицируют более тонкие региональные происхождения. Исследование показывает, что лингвистическая дистанция между регионами коррелирует с географической дистанцией, с увеличением регионального расхождения в поздний период Тан, и подчеркивает исторические предвзятости в стиле поэзии раннего Тан.