命名实体识别 数据集
时间: 2023-10-26 11:05:09 浏览: 105
命名实体识别(NER)是指从文本中识别出具有特定含义的实体,如人名、地名、组织机构等。有许多常用的命名实体识别数据集可供使用,下面是其中一些常见的数据集:
1. CoNLL-2003:这是一个广泛使用的命名实体识别数据集,包含英语语料,标注了人名、地名和组织名等实体。
2. OntoNotes:这是一个多领域的大规模语料库,其中包含了丰富的命名实体信息,可用于命名实体识别、消歧和指代消解等任务。
3. ACE:这是一个用于事件抽取的数据集,也包含了命名实体信息。它涵盖了多个文本领域和多种类型的实体。
4. WikiNER:这个数据集是从维基百科中提取的,包含了大量的实体样本,并且涵盖了多种语言。
5. GENIA:这个数据集主要用于生物医学文本中的命名实体识别任务。它包含了医学文献中的基因、蛋白质和细胞等实体。
这些数据集都可以用于训练和评估命名实体识别模型,你可以根据自己的需求选择合适的数据集进行使用。
相关问题
中文命名实体识别数据集
中文命名实体识别数据集有很多,以下是一些常用的数据集:
1. MSRA-NER:由微软亚洲研究院发布的中文命名实体识别数据集,包含人名、地名、组织名等实体类型。
2. WeiboNER:由清华大学自然语言处理与社会人文计算实验室发布的微博中文命名实体识别数据集,包含人名、地名、组织名、时间等实体类型。
3. OntoNotes 5.0:由中文信息处理研究所发布的中文命名实体识别数据集,包含人名、地名、组织名等实体类型。
4. Dureader:由百度AI实验室发布的中文命名实体识别数据集,包含人名、地名、组织名等实体类型。
5. ResumeNER:由清华大学自然语言处理与社会人文计算实验室发布的中文简历命名实体识别数据集,包含人名、公司名、学校名等实体类型。
命名实体识别数据集怎么划分训练集和验证集代码
命名实体识别数据集的划分训练集和验证集的代码可以如下所示:
```python
import random
# 读取数据集
with open('dataset.txt', 'r', encoding='utf-8') as f:
data = f.readlines()
# 打乱数据集顺序
random.shuffle(data)
# 计算验证集的数量,一般取总数据集的10%~20%
val_size = int(len(data) * 0.1)
# 划分训练集和验证集
train_data = data[val_size:]
val_data = data[:val_size]
# 将训练集和验证集分别写入文件
with open('train.txt', 'w', encoding='utf-8') as f:
f.writelines(train_data)
with open('val.txt', 'w', encoding='utf-8') as f:
f.writelines(val_data)
```
其中,`dataset.txt`为原始数据集的文件名,`train.txt`和`val.txt`为划分后的训练集和验证集的文件名。可以根据自己的需求修改文件名和划分比例。
相关推荐
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)