ChnSentiCorp数据集 EPRSTMT数据集 LCSTS数据集 TTNews数据集 CMRC2018数据集 DRCD数据集 C3数据集 WebQA数据集 CKBQA数据集
时间: 2023-07-21 14:51:32 浏览: 463
大数据数据集
好的,以下是这些数据集的简介和下载地址:
1. ChnSentiCorp数据集:这是一个汉语情感分析数据集,包含了超过20,000条中文评论和对应的情感标签(正向、负向、中性)。下载地址:http://www.nlpir.org/wordpress/chnsenticorp-download/
2. EPRSTMT数据集:这是一个用于事件性质识别的数据集,包含了新闻文章、社交媒体帖子和其他类型的文本数据。该数据集涵盖了多种事件类型,如自然灾害、政治事件、健康事件等。下载地址:https://www.epw.in/engage/article/eprstmt-dataset
3. LCSTS数据集:这是一个中文短文本摘要数据集,包含了超过20,000篇新闻文章及其对应的摘要。该数据集被用于训练和评估中文自动摘要模型。下载地址:http://icrc.hitsz.edu.cn/Article/show/139.html
4. TTNews数据集:这是一个中文新闻分类数据集,包含了超过10万篇新闻文章及其对应的类别标签。该数据集被用于训练和评估中文新闻分类模型。下载地址:https://github.com/thunlp/TensorFlow-NRE/blob/master/data/TTNews.zip
5. CMRC2018数据集:这是一个中文机器阅读理解数据集,包含了超过10,000个问题和对应的答案。该数据集涵盖了多种主题,如历史、文化、科技等。下载地址:https://github.com/ymcui/cmrc2018
6. DRCD数据集:这是一个中文机器阅读理解数据集,包含了超过10,000个问题和对应的答案。该数据集涵盖了新闻、小说、百科等多种文本类型。下载地址:https://github.com/DRCKnowledgeTeam/DRCD
7. C3数据集:这是一个中文多项选择阅读理解数据集,包含了超过2,000个问题和对应的答案。该数据集涵盖了多种主题,如历史、文化、科技等。下载地址:https://www.cluebenchmarks.com/introduce.html
8. WebQA数据集:这是一个中文问答数据集,包含了超过10,000个问题和对应的答案。该数据集涵盖了多种主题,如历史、文化、科技等。下载地址:https://github.com/SUDA-LA/WebQA
9. CKBQA数据集:这是一个中文知识库问答数据集,包含了超过1,000个问题和对应的答案。该数据集涵盖了多种主题,如历史、文化、科技等。下载地址:https://github.com/CIS-DMZ/CKBQA-Dataset
阅读全文