自动关键词提取数据集汇总及研究

需积分: 9 130 浏览量更新于2024-12-14 收藏 100.84MB ZIP 举报

关键词提取是自然语言处理（NLP）中的一个重要任务，它旨在从文本中识别出能够准确表示文本主题或内容的关键词短语。这些关键词可以用于信息检索、文本摘要、主题建模、语义索引等多种应用中。本数据集是一个由研究团体提供的包含了20个带注释的自动关键词短语提取数据集的集合，为研究和开发关键词提取算法提供了宝贵的资源。数据集涉及不同类型的文本内容，如消息、摘要、论文等，覆盖了诸如消息、比较科学等不同的领域。每个数据集都详细列出了文档的数量（#Docs）、每个文件中关键词的总数（#金钥）、每个文档的平均令牌数（＃每个文档的令牌数），以及缺省关键词所占的比例（缺金钥匙）。文档中的“令牌”通常指的是经过分词处理后的单词或短语，它们是构建关键词提取算法的基本单位。具体到数据集的详细信息，可以看到以下内容： 1. 数据集1 - 消息杂项领域，包含110篇文档，共计2610个关键词，平均每个文档有23.73个关键词，每篇文档平均有304个令牌，2.5%的文档存在缺失关键词。 2. 数据集2 - 英文消息杂项领域，包含500篇文档，共计24459个关键词，平均每个文档有48.92个关键词，每篇文档平均有408.33个令牌，13.5%的文档存在缺失关键词。 3. 数据集3 - 英文摘要比较科学领域，包含2000篇文档，共计29230个关键词，平均每个文档有14.62个关键词，每篇文档平均有128.20个令牌，37.7%的文档存在缺失关键词。 4. 数据集4 - 英文论文比较科学领域，包含2304篇文档，共计14599个关键词，平均每个文档有6.34个关键词，每篇文档平均有8040.74个令牌，15.3%的文档存在缺失关键词。 5. 数据集5 - 英文论文比较科学领域，包含209篇文档，共计2369个关键词，平均每个文档有11.33个关键词，每篇文档平均有5201.09个令牌，17.8%的文档存在缺失关键词。 6. 数据集6 - 英文论文比较科学领域，包含500篇文档，共计7620个关键词，平均每个文档有15.24个关键词，每篇文档平均有3992.7个令牌。每个数据集都可以用于训练和测试关键词提取算法，通过比较不同算法在各数据集上的性能，研究者可以评估和改进他们的方法。这些数据集中的注释可能包括专家标注的关键词短语，或者通过某些算法预先提取的结果，供研究人员参考或作为基准。数据集可以应用于多种NLP和文本挖掘任务，例如： - 文本分类：使用关键词提取来增强文本分类器的特征集。 - 搜索引擎：改善搜索引擎的关键词索引，以提供更准确的搜索结果。 - 摘要生成：识别文本中最重要的句子或短语，生成高质量的文本摘要。 - 主题识别：从大量文档中自动发现主题和模式。对于想要贡献更多数据集的研究者或开发者，提供了相应的指导和联系方式，以便能够不断扩展和完善资源库。同时，这个存储库可能还包含一个关键提取库，这个库可能包含各种关键词提取的算法、工具和框架，为研究和实践者提供更全面的支持。由于【标签】部分为空，我们没有更多关于数据集的分类或标签信息，无法进一步了解数据集的其他特性。而【压缩包子文件的文件名称列表】指出了数据集的压缩包文件名称为"KeywordExtractor-Datasets-master"，暗示了数据集的文件结构或版本信息。研究者可以通过这个文件名来下载和解压缩数据集，开始他们的研究和开发工作。

资源目录

收起资源包目录

自动关键词提取数据集汇总及研究（21个子文件）

SemEval2010.zip 3.98MB

fao30.zip 339KB

Krapivin2009.zip 34.85MB

citeulike180.zip 1.98MB

cacic.zip 7.78MB

Schutz2008.zip 11.7MB

WikiNews.zip 131KB

PubMed.zip 18.46MB

fao780.zip 8.55MB

500N-KPCrowd-v1.1.zip 930KB

kdd.zip 496KB

wiki20.zip 287KB

www.zip 907KB

Inspec.zip 1.8MB

SemEval2017.zip 580KB

theses100.zip 1.04MB

wicc.zip 8.31MB

110-PT-BN-KP.zip 172KB

README.md 17KB

Nguyen2007.zip 2.29MB

pak2018.zip 44KB

共 21 条

快快跑起来

粉丝: 26

自动关键词提取数据集汇总及研究

Python-KeywordExtractor使用python实现了一个简单的trie树结构

keyword-extractor:NPM软件包，用于从字符串创建关键字数组并排除停用词

keyword-extractor:一个玩具包，用于从纯文本文档中提取关键字

基于matlab的表情识别代码-ML-Image-Datasets:ML-Image-Datasets

COVID-19-Datasets

multi-view-datasets

dandi-api-datasets

mlgit-lucas-datasets

Laravel开发-laravel-datasets-australia

Laravel开发-laravel-datasets-okfn

最新资源