中文命名实体识别数据集
时间: 2023-09-11 18:03:14 浏览: 75
中文命名实体识别数据集有很多,以下是一些常用的数据集:
1. MSRA-NER:由微软亚洲研究院发布的中文命名实体识别数据集,包含人名、地名、组织名等实体类型。
2. WeiboNER:由清华大学自然语言处理与社会人文计算实验室发布的微博中文命名实体识别数据集,包含人名、地名、组织名、时间等实体类型。
3. OntoNotes 5.0:由中文信息处理研究所发布的中文命名实体识别数据集,包含人名、地名、组织名等实体类型。
4. Dureader:由百度AI实验室发布的中文命名实体识别数据集,包含人名、地名、组织名等实体类型。
5. ResumeNER:由清华大学自然语言处理与社会人文计算实验室发布的中文简历命名实体识别数据集,包含人名、公司名、学校名等实体类型。
相关问题
命名实体识别 数据集
命名实体识别(NER)是指从文本中识别出具有特定含义的实体,如人名、地名、组织机构等。有许多常用的命名实体识别数据集可供使用,下面是其中一些常见的数据集:
1. CoNLL-2003:这是一个广泛使用的命名实体识别数据集,包含英语语料,标注了人名、地名和组织名等实体。
2. OntoNotes:这是一个多领域的大规模语料库,其中包含了丰富的命名实体信息,可用于命名实体识别、消歧和指代消解等任务。
3. ACE:这是一个用于事件抽取的数据集,也包含了命名实体信息。它涵盖了多个文本领域和多种类型的实体。
4. WikiNER:这个数据集是从维基百科中提取的,包含了大量的实体样本,并且涵盖了多种语言。
5. GENIA:这个数据集主要用于生物医学文本中的命名实体识别任务。它包含了医学文献中的基因、蛋白质和细胞等实体。
这些数据集都可以用于训练和评估命名实体识别模型,你可以根据自己的需求选择合适的数据集进行使用。
用于命名实体识别的数据集
命名实体识别(Named Entity Recognition,简称NER)是指从文本中识别和分类出具有特定意义的实体,如人名、地名、组织机构名等。以下是一些常用的用于命名实体识别的数据集:
1. CoNLL-2003:这是一个经典的英文命名实体识别数据集,包含新闻和维基百科等文本,标注了人名、地名、组织名等实体。
2. OntoNotes:这是一个大规模多领域的命名实体识别数据集,包含新闻、采访、社交媒体等不同类型的文本。
3. ACE:这是一个广泛应用于情报分析领域的命名实体识别数据集,标注了事件、人物、组织等实体。
4. MSRA-NER:这是一个中文命名实体识别数据集,标注了人名、地名、组织名等实体。
5. WeiboNER:这是一个专门用于微博文本的中文命名实体识别数据集,标注了人名、地名、组织名等实体。
除了上述数据集,还有一些针对特定领域或语种的命名实体识别数据集,如医疗领域的i2b2数据集、法律领域的JF17数据集等。根据实际需求选择合适的数据集进行训练和评估是很重要的。