MIT公开的10大自然语言处理关键数据集与语料库

需积分: 41 40 下载量 137 浏览量 更新于2024-09-10 5 收藏 2KB TXT 举报
在自然语言处理领域,数据集和语料库是至关重要的组成部分,它们为模型训练、算法评估和创新提供了丰富的素材。麻省理工学院(MIT)发布了十个关键的数据集和语料库,这些资源对于推动NLP技术的发展起到了重要作用。 1. MS MARCO(Machine Reading Comprehension)- 由斯坦福大学于2016年提出,其论文链接为[arXiv:1611.09268](https://arxiv.org/abs/1611.09268)。这个大规模阅读理解数据集包含从互联网上抓取的100万个文档,用于测试机器在理解和回答开放性问题的能力。官方网站为[msmarco.org](http://www.msmarco.org/)。 2. NewsQA - 马鲁巴公司(Maluuba)于2016年发布,通过新闻文章提问生成问答对,旨在研究机器在理解和生成自然语言文本上的能力。论文为[arXiv:1611.09830](https://arxiv.org/abs/1611.09830),可以通过GitHub获取:[github.com/Maluuba/newsqa](https://github.com/Maluuba/newsqa)。 3. SQuAD(Stanford Question Answering Dataset)- 由斯坦福大学开发,最初包含了100,000个问题-答案对,用于评估机器在给定文本中定位答案的能力。论文[arXiv:1606.05250](https://arxiv.org/abs/1606.05250),访问器可查看[rajpurkar.github.io/SQuAD-explorer/](https://rajpurkar.github.io/SQuAD-explorer/)。 4. GraphQuestions - 2016年的EMNLP会议上发布,设计了一种生成具有丰富特征的问题集合来评估问答系统的任务。相关论文为[http://suo.im/4u7oFE](http://suo.im/4u7oFE),GitHub代码库为[github.com/ysu1989/GraphQuestions](https://github.com/ysu1989/GraphQuestions)。 5. ROCStories - 故事 Cloze 测试,通过提供故事的片段让模型预测缺失的情节,发表于2016年,论文[arXiv:1604.01696](https://arxiv.org/abs/1604.01696),可以在[cs.rochester.edu/nlp/rocstories/](http://cs.rochester.edu/nlp/rocstories/)找到。 6. SimpleQuestions - 2015年由Google发布,包含简单明了的问题和答案对,用于基础问答研究,论文[arXiv:1506.02075v1.pdf](https://arxiv.org/pdf/1506.02075v1.pdf),可以访问[http://suo.im/2eiX0O](http://suo.im/2eiX0O)。 7. WikiQA - 一个基于维基百科的问答数据集,关注的是信息检索中的准确性和多样性,发表于2015年,论文链接为[http://suo.im/1bqPMh](http://suo.im/1bqPMh)。 8. CNN-DailyMail - 由DeepMind于2015年发布,包含新闻文章和对应摘要的阅读理解数据,论文[arXiv:1506.03340](https://arxiv.org/abs/1506.03340)。数据集可以从[github.com/deepmind/rc-data](https://github.com/deepmind/rc-data)获取,以及NYU的资源[http://cs.nyu.edu/~kcho/DMQA/](http://cs.nyu.edu/~kcho/DMQA/)。 9. Ubuntu Dialogue Corpus - 2015年发布的Ubuntu聊天对话数据集,属于多轮对话场景,主要针对人机交互中的对话理解与生成,论文[arXiv:1506.08909](https://arxiv.org/abs/1506.08909),访问[http://suo.im/2pbKCC](http://suo.im/2pbKCC)。 10. Frames Corpus - Maluuba公司在2016年构建的一个框架化对话数据集,用于研究更复杂的对话系统结构,可通过[http://suo.im/36jcl2](http://suo.im/36jcl2)获取,以及数据集官网[datasets.maluuba.com/Frames](http://datasets.maluuba.com/Frames)。 这些数据集和语料库的多样性,涵盖了阅读理解、问答系统、对话理解、信息检索等多个方面,为研究者提供了丰富的训练材料和评估基准,推动了自然语言处理领域的进步。通过使用这些资源,研究人员可以深入探索和改进模型在处理自然语言的复杂性和现实应用场景中的表现。