arxiv arXiv cs.CL · 2 小时前 · 来源： 4 天前 · research

收集灾害新闻数据的自下而上与自上而下方法比较

译自 English → 中文

本文比较了两种用于选取关于灾害的新闻文章代表性样本的方法论方法：一种使用现有灾害清单查询数据库的自上而下方法，另一种基于时间和空间特征使用自然语言处理 (NLP) 方法对文本进行聚类的自下而上方法。

该研究利用全球范围内关于滑坡的德语新闻文章数据集来评估这些方法。
讨论了因选择按清单查询与按文本特征聚类而产生的事件报道差异。
研究设计决策会影响最终的新闻样本，进而影响其在媒体覆盖不平等研究、灾害监测和清单丰富化方面的效用。

重要性 1/3 arXiv cs.CL Research paper Training data