经典的命名体识别数据集
时间: 2023-10-22 21:05:07 浏览: 38
经典的命名实体识别数据集包括:
1. CoNLL-2003:包含英文新闻文章的命名实体标注数据集。
2. OntoNotes:包含英文新闻、采访等多领域的命名实体标注数据集。
3. MSRA-NER:包含中文新闻文章的命名实体标注数据集。
4. People's Daily NER:包含中文新闻文章的命名实体标注数据集。
5. ACE:包含英文新闻、采访等多领域的命名实体标注数据集。
6. WikiNER:包含维基百科中的实体标注数据集。
7. GENIA:包含生物医学领域的命名实体标注数据集。
相关问题
命名实体识别 数据集
命名实体识别(NER)是指从文本中识别出具有特定含义的实体,如人名、地名、组织机构等。有许多常用的命名实体识别数据集可供使用,下面是其中一些常见的数据集:
1. CoNLL-2003:这是一个广泛使用的命名实体识别数据集,包含英语语料,标注了人名、地名和组织名等实体。
2. OntoNotes:这是一个多领域的大规模语料库,其中包含了丰富的命名实体信息,可用于命名实体识别、消歧和指代消解等任务。
3. ACE:这是一个用于事件抽取的数据集,也包含了命名实体信息。它涵盖了多个文本领域和多种类型的实体。
4. WikiNER:这个数据集是从维基百科中提取的,包含了大量的实体样本,并且涵盖了多种语言。
5. GENIA:这个数据集主要用于生物医学文本中的命名实体识别任务。它包含了医学文献中的基因、蛋白质和细胞等实体。
这些数据集都可以用于训练和评估命名实体识别模型,你可以根据自己的需求选择合适的数据集进行使用。
中文命名实体识别数据集
中文命名实体识别数据集有很多,以下是一些常用的数据集:
1. MSRA-NER:由微软亚洲研究院发布的中文命名实体识别数据集,包含人名、地名、组织名等实体类型。
2. WeiboNER:由清华大学自然语言处理与社会人文计算实验室发布的微博中文命名实体识别数据集,包含人名、地名、组织名、时间等实体类型。
3. OntoNotes 5.0:由中文信息处理研究所发布的中文命名实体识别数据集,包含人名、地名、组织名等实体类型。
4. Dureader:由百度AI实验室发布的中文命名实体识别数据集,包含人名、地名、组织名等实体类型。
5. ResumeNER:由清华大学自然语言处理与社会人文计算实验室发布的中文简历命名实体识别数据集,包含人名、公司名、学校名等实体类型。