深度学习数据集大全：免费资源与热门网站

105 浏览量更新于2024-08-04 1 收藏 640KB PDF 举报

数据集汇总是一份关于获取和利用大量开放源代码和免费数据的重要指南。在这个概述中，我们将会探讨一系列网站和资源，它们为深度学习研究、图像识别、自然语言处理、搜索引擎优化以及各种其他领域提供了丰富的数据集，有助于提升模型训练和项目开发的质量。首先，对于深度学习研究，有专门的网站收集大量的相关数据集，包括8000万的32x32图像，CIFAR-10和CIFAR-100是其中的一部分，这些数据集对于计算机视觉任务非常有价值。雅虎发布了Flickr数据集，尤其是一亿多张图片，其中还精选出100万张图像用于特定分析。此外，Flickr还有子集和27万张机器标注的图像集，以及一个包含2亿图像的超大规模数据集。 Microsoft亚洲研究院提供的数据集包含100万张图像和23000个视频，其质量和学术性得到认可。Wikipedia的Database允许用户下载各种语言的免费内容和图片，是知识获取的好去处。Commoncrawl是一个开放网络数据仓库，虽然访问可能需要费用，但它存储了广泛的网络数据，适合研究互联网内容。针对特定的文件格式，有EDRMFileFormatsDataSet，包含381个文件夹和200种文件格式，这对于处理多样化的数据类型至关重要。Apache Mahout提供了免费和付费的语料库资源，满足不同的数据需求。同时，安然公司（Enron）的电子邮件数据集（EDRMEnronEmailDataSetv2）作为历史案例，包含XML和PST格式的邮件信息。 ClueWeb09则是一个大规模的网页数据库，用于信息检索和语言技术研究，包含约10亿网页，涵盖10种语言。DMOZ，作为最大的人工编纂网站目录，汇集了各类网站链接，是搜索引擎优化的重要参考。theinfo.org则是一个社区平台，供研究人员、设计师等分享数据集和项目经验。在书籍和音乐领域，Project Gutenberg提供超过36000本免费电子书下载，适应不同的阅读设备。Millionsongdataset关注音乐数据，对分析音乐行业趋势有很大帮助。Amazon Web Services (AWS) Public Datasets提供与AWS云服务无缝集成的公共数据集，便于云计算应用开发。最后，BigML biglist of public data sources列出了更多的公开数据源，为开发者提供了丰富的数据资源选择。这些数据集汇总涵盖了从基础图像和文本数据到复杂网络信息的广泛内容，对于推动科研进步和创新应用起到了关键作用。通过合理利用这些资源，研究人员和开发者能够构建更强大和精确的模型，推动科技领域的前沿发展。

数据集汇总

⼀、免费⼤数据存储库的⽹站⼀、免费⼤数据存储库的⽹站

1、深度学习数据集收集⽹站

收集⼤量的各深度学习相关的数据集，但并不是所有开源的数据集都能在上⾯找到相关信息。

包含8000万的32x32图像，CIFAR-10和CIFAR-100便是从中挑选的。

雅虎发布的超⼤Flickr数据集，包含1亿多张图⽚。

Flickr数据集中挑选出的100万图像集。

Flickr的⼀个⼦集，包含100万的图像集。

Flickr中的27万的图像集。

机器标注的⼀个超⼤规模数据集，包含2亿图像。

包含13万的图像的数据集。

包含100万的图像，23000视频；微软亚洲研究院出品，质量应该有保障。

10、其它：

Wikipedia:Database ：向感兴趣的⽤户提供所有可⽤的内容的免费副本。可以得到多种语⾔的数据。内容连同图⽚可以下载。

Common crawl：所有⼈都可以访问的开放的⽹络。这个数据保存在亚马逊s3bucket中，请求者可能花费⼀些钱来访问它。

EDRM File Formats Data Set：由381个⽂件夹200种⽂件格式组成。

Apache Mahout：有许多免费的和付费的语料库语料。

EDRM Enron Email Data Set v2：由安然公司邮件信息和附件组成，存在两组可下载的压缩⽂件中：XML和PST。

ClueWeb09：⽤来⽀持信息检索和相关⼈类语⾔技术研究的资料库。它包含了从2009年1⽉到2⽉间收集的⼤约10亿个⽹页，包含10种

语⾔。资料库被若⼲TREC会议的追踪检测使⽤。

DMOZ：最⼤的、最全⾯的⼈⼯编辑的开放式⽹站⽬录。它收集了不同类型的⽹站链接。Dmoz是互联⽹搜索引擎的⼀个主要来源。

theinfo.org：这是⼀个⼤数据集⽹站，在这⾥学者、设计师、艺术家等可以交流技巧和窍门，⼀起开发和共享⼯具，并开始整合他们独有

的项⽬。

Project Gutenberg：提供超过36000免费电⼦书的下载，可以下载到个⼈电脑、Kindle, Android, iOS or 或其他便携式设备。

Million song data set：与tracks 和艺术家有关的数据。

AWS (Amazon Web Services) Public Data Sets：提供了可以⽆缝融⼊AWS（亚马逊⽹络服务）云应⽤的公共数据集的集中存储库。

BigML big list of public data sources。

Bioassay data：研究⽂章“⽣物测定数据的虚拟筛选”，由Amanda Schierz编写，有21个⽣物测定数据集（活性/⾮⽣理活性成分），

可以下载。

Bitly 1.usa.gov data：匿名点击政府链接。

Canada Open Data：有许多政府和地理空间的数据集的试点项⽬。

Canada Open Data：许多政府和地理空间数据集的试点项⽬。

Causality Workbench：数据存储库。

Corral Big Data repository：在德克萨斯⾼级计算中⼼，提供以数据为中⼼的技术。

下载后可阅读完整内容，剩余6页未读，立即下载

wangyq0517

粉丝: 61
资源: 218

深度学习数据集大全：免费资源与热门网站

深度学习计算机视觉数据集汇总

深度学习数据集资源汇总

深度学习/机器学习/数据集资源汇总.zip

花数据集+数据集汇总+标签txt+数据集汇总代码+迁移学习最佳模型+全部迭代最佳模型

开源数据集资源汇总 数据集下载汇总

千言数据集：情感分析 数据集汇总

数学建模数据集数据集网站汇总

开源数据集汇总.docx

跌倒检测数据集汇总整理

语音技术数据集汇总材料

最新资源

开源数据集资源汇总数据集下载汇总

千言数据集：情感分析数据集汇总