NLP中文数据集下载指南：从HuggingFace到魔塔社区

需积分: 0 109 浏览量更新于2024-08-03 收藏 24KB DOCX 举报

本文提供了多个数据集的下载渠道，包括Huggingface、魔塔社区、阿里巴巴EasyNLP、清华OpenSLR以及聚数力等平台，涵盖了NLP领域中的文本分类和新闻数据集。 1. Huggingface数据下载方式： Huggingface是一个强大的AI社区，提供各种预训练模型和数据集。要下载数据集，首先访问其官网的数据集部分，然后找到所需的数据集。在本地运行`git lfs install`安装Git Large File System，接着使用`git clone`命令克隆数据集的GitHub仓库，例如：`git clone https://huggingface.co/datasets/数据名称`。 2. 魔塔社区数据下载：魔塔社区是中国的一个数据集资源平台，用户可以在数据集首页找到所需的中文数据集。数据集的下载通常通过官方提供的文档或说明进行，具体步骤可参考网站内的“数据集的下载”指南。 3. 阿里巴巴EasyNLP数据集： EasyNLP是阿里巴巴开源的自然语言处理库，其中包含了多种数据集，可以在GitHub仓库（https://github.com/alibaba/EasyNLP/tree/master/datahub）中找到并下载。 4. 清华OpenSLR数据集： OpenSLR是清华大学维护的一个语音和语言资源库，提供了多种语言学相关的数据集，如语音识别、机器翻译等。访问openslr.org获取所需数据集。 5. 聚数力数据平台：聚数力是一个大数据应用要素托管与交易平台，用户可以在平台上找到Labeled Faces in the Wild等数据集，以及其他各类标签化的数据资源。 6. NLP中文文本分类数据集： - THUCNews数据集：这个数据集包含74万篇新闻文档，覆盖14个分类，适用于文本分类任务，准确率可达88.6%。数据集可以从http://thuctc.thunlp.org/下载。 - 今日头条新闻文本分类数据集：源自今日头条客户端，共有382688条数据，分布于15个分类。数据以特定格式存储，每行数据由多个字段用_!_分隔，包括新闻ID、分类码等信息。这些数据集对于NLP研究和实践非常有价值，无论是初学者还是专业人士，都能从中找到适合自己的资源进行学习和实验。在使用这些数据集时，应遵循开源社区的许可证规定，尊重数据来源，并确保数据使用的合法性。

1、huggingface 的数据下载方式：

1.进入官网数据集列：Hugging Face – The AI community building the future.

2.选中自己想要下载的数据后，在本地执行如下命令：

git lfs install

git clone https://huggingface.co/datasets/数据名称

2、魔塔社区的数据下载方式（中文数据社区）

1、进入官网数据集列（）：数据集首页 · 魔搭社区 (modelscope.cn)

2.选中自己想要下载的数据后，下载方式如下：

数据集的下载 · 文档中心 (modelscope.cn)

Machine Learning Datasets | Papers With Code

阿里巴巴 datahub:https://github.com/alibaba/EasyNLP/tree/master/datahub

清华官网整理数据集：openslr.org

聚数力：数据集 -- Labeled Faces in the Wild 数据集 | 聚数力平台 | 大数据应用要素托管

与交易平台

文本分类（情感分析）中文数据集汇总

这段时间在公司 NLP 组里实习，相应的开始学习了一些 NLP 的知识，并搜索了一些关于 NLP

中文本分类领域的相关数据集，本文主要列举一些中文数据集。关于英语数据集，且听下回

分解。

1.THUCNews 数据集：

THUCNews 是根据新浪新闻 RSS 订阅频道 2005~2011 年间的历史数据筛选过滤生成，包含

74 万篇新闻文档（2.19 GB），均为 UTF-8 纯文本格式。我们在原始新浪新闻分类体系的基

础上，重新整合划分出 14 个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、

社会、时尚、时政、体育、星座、游戏、娱乐。使用 THUCTC 工具包在此数据集上进行评

测，准确率可以达到 88.6%。

数据集地址： http://thuctc.thunlp.org/

2.今日头条新闻文本分类数据集：

数据来源：今日头条客户端

数据规模：共 382688 条，分布于 15 个分类中。

下载后可阅读完整内容，剩余7页未读，立即下载

浪迹四方的野马

粉丝: 1
资源: 25

NLP中文数据集下载指南：从HuggingFace到魔塔社区

MVS数据集论文下载 （DTU数据集、Tanks and Temples 数据集、ETH3D 数据集、BlendedMVS数据集

图像匹配 Megadepth数据集下载

PatchmatchNet: colmap制作自己的数据集文件下载

全国各地区经纬度数据集下载

Train400数据集下载与学习指南

Harvard医学图像融合数据集下载指南

淘宝购物行为大数据分析：完整数据集下载

Ninapro工具集: Python编程示例与数据集下载指南

全国道路网SHP数据集下载及学习指南

电力负荷时间序列预测分析与数据集下载

最新资源

MVS数据集论文下载（DTU数据集、Tanks and Temples 数据集、ETH3D 数据集、BlendedMVS数据集