В статье сравниваются два методологических подхода к отбору репрезентативных выборок новостных статей о стихийных бедствиях: подход сверху вниз, использующий существующие реестры бедствий для запросов в базах данных, и подход снизу вверх, использующий методы NLP для кластеризации текстов на основе временных и пространственных признаков.
- Исследование использует набор данных немецких новостных статей о оползнях по всему миру для оценки этих методов.
- Обсуждаются различия в освещении событий, возникающие из-за выбора между запросами по реестру и кластеризацией по текстовым признакам.
- Решение в рамках дизайна исследования влияет на результирующую выборку новостей, что сказывается на её полезности для исследований неравенства в освещении СМИ, мониторинга стихийных бедствий и обогащения реестров.