Раскрытие технологий развития обработки естественного языка: взгляд с точки зрения научных сущностей

В данном исследовании анализируется развитие технологий в области обработки естественного языка (NLP) с точки зрения, ориентированной на сущности, путем извлечения методов, наборов данных, метрик и инструментов для оценки их влияния через сети со-встречаемости. Исследование показывает, что, хотя предобученные языковые модели, такие как BERT и Transformer, стали мейнстримом, среднее количество сущностей на статью увеличивается, что указывает на растущую нагрузку на знания исследователей.

В работе извлекаются связанные с технологиями сущности из статей по NLP и нормализуются с использованием полуавтоматического подхода для расчета z-оценок на основе сетей со-встречаемости.
Среди 179 высокоэффективных сущностей преобладают методы, при этом предобученные языковые модели, такие как BERT и Transformer, стали мейнстримом в последние годы.
В отличие от других методов, влияние набора данных Wikipedia и метрики BLEU продолжало расти в долгосрочной перспективе.
Наблюдается заметный всплеск популярности новых высокоэффективных технологий, при этом их принятие исследователями ускоряется с беспрецедентной скоростью.

Этот подход обеспечивает более точный анализ тенденций развития технологий по сравнению с грубыми тематическими перспективами, подчеркивая, как предобученные модели придали новую жизнь инновациям в NLP.