Сравнение подходов снизу вверх и сверху вниз для сбора данных о новостях о стихийных бедствиях

В статье сравниваются два методологических подхода к отбору репрезентативных выборок новостных статей о стихийных бедствиях: подход сверху вниз, использующий существующие реестры бедствий для запросов в базах данных, и подход снизу вверх, использующий методы NLP для кластеризации текстов на основе временных и пространственных признаков.

Исследование использует набор данных немецких новостных статей о оползнях по всему миру для оценки этих методов.
Обсуждаются различия в освещении событий, возникающие из-за выбора между запросами по реестру и кластеризацией по текстовым признакам.
Решение в рамках дизайна исследования влияет на результирующую выборку новостей, что сказывается на её полезности для исследований неравенства в освещении СМИ, мониторинга стихийных бедствий и обогащения реестров.