有哪些中文的实体识别数据集下载地址?
时间: 2023-02-05 07:50:35 浏览: 152
你好! 下面是一些可供下载的中文实体识别数据集的地址:
1. 中文维基百科数据集: https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2
2. 中文人名数据集: https://github.com/chinese-poetry/chinese-poetry/tree/master/ci
3. 中文新闻数据集: https://github.com/ChineseNLPTools/News_Data
4. 中文网络数据集: https://github.com/thunlp/OpenNE/tree/master/datasets/weibo
希望这些资源能帮到你!
相关问题
有哪些中文的实体识别数据集?
下面是一些中文实体识别数据集:
1. 人民日报数据集:这是一个著名的中文实体识别数据集,由中国人民日报社提供。
2. 北京大学信息科学技术学院数据集:这是一个由北京大学信息科学技术学院提供的中文实体识别数据集。
3. 清华大学数据集:这是一个由清华大学提供的中文实体识别数据集。
4. 中科院自动化所数据集:这是一个由中国科学院自动化研究所提供的中文实体识别数据集。
5. 谷歌数据集:谷歌提供了一些中文实体识别数据集,包括“中文维基百科数据集”和“中文网络数据集”。
希望这些信息对你有帮助。
中文命名实体识别数据集
中文命名实体识别数据集有很多,以下是一些常用的数据集:
1. MSRA-NER:由微软亚洲研究院发布的中文命名实体识别数据集,包含人名、地名、组织名等实体类型。
2. WeiboNER:由清华大学自然语言处理与社会人文计算实验室发布的微博中文命名实体识别数据集,包含人名、地名、组织名、时间等实体类型。
3. OntoNotes 5.0:由中文信息处理研究所发布的中文命名实体识别数据集,包含人名、地名、组织名等实体类型。
4. Dureader:由百度AI实验室发布的中文命名实体识别数据集,包含人名、地名、组织名等实体类型。
5. ResumeNER:由清华大学自然语言处理与社会人文计算实验室发布的中文简历命名实体识别数据集,包含人名、公司名、学校名等实体类型。
阅读全文