亲给我这篇文献的信息Cleaning GeoNames Data: A Case Study for Natural Language Processing
时间: 2024-05-27 13:13:33 浏览: 165
es-geonames-loader:用于将 Geoname 数据加载到 Elasticseach 的 Python 工具
标题:Cleaning GeoNames Data: A Case Study for Natural Language Processing
作者:Eckart de Castilho, Iryna Gurevych
期刊:Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP)
出版日期:2014年
摘要:本文介绍了一个自然语言处理(NLP)的案例研究,旨在清理GeoNames数据集中包含的地理位置名称。GeoNames数据集是一个全球性的地理位置数据库,包含数百万个地名实体。由于数据集的大规模和多样性,其中包含许多不规则的或错误的地名实体,这对NLP任务的准确性和效率造成了挑战。本文提出了一种基于规则的方法来清理GeoNames数据集,并将其与一些现有的数据清理方法进行了比较。结果表明,基于规则的方法可以有效地清理数据集,并提高NLP任务的准确性和效率。
关键词:自然语言处理,数据清理,地理位置名称,GeoNames数据集,基于规则的方法
阅读全文