使用sklearn获取与生成数据集详解

需积分: 50 86 浏览量更新于2024-09-08 收藏 482KB PDF 举报

"本资源主要介绍了如何在Python的sklearn库中获取各种数据集，包括自带的小型数据集、在线下载的数据集、计算机生成的数据集以及特定格式的数据集加载方法。通过实例展示了如何使用这些数据集，适用于机器学习的分类、聚类和回归任务。" 在机器学习中，数据是至关重要的，而`sklearn`库为用户提供了方便的数据获取方式。这个资源主要讲解了`sklearn.datasets`模块中的几种数据集获取方法，适合初学者和进阶者使用，以便进行实践和学习。 1. **自带的小数据集** - `load_iris()`：鸢尾花数据集，包含3种鸢尾花类别，4个特征，常用于分类和聚类任务。 - `load_breast_cancer()`：乳腺癌数据集，用于分类任务，描述了肿瘤的特征。 - `load_digits()`：手写数字数据集，用于数字识别的分类任务。 - `load_diabetes()`：糖尿病数据集，用于预测糖尿病患者的疾病进展，属于回归任务。 - `load_boston()`：波士顿房价数据集，用于预测房价，是经典的回归问题。 - `load_linnerud()`：体能训练数据集，包括人体生理指标，适合回归任务。 2. **在线下载的数据集** - `fetch_...`：这些函数用于从网上下载数据集，例如`fetch_openml`和`fetch_covtype`等，提供多样化的数据集供学习和研究。 3. **计算机生成的数据集** - `make_...`：这些函数可以根据参数生成随机数据集，如： - `make_blobs()`：生成多中心的高维球形分布数据，适用于聚类和分类。 - `make_classification()`：生成具有指定属性（如类别、噪声、缺失值等）的分类数据集。 - `make_circles()` 和 `make_moons()`：生成二维数据，形状分别为圆形和月牙形，适用于分类问题。 - `make_multilabel_classification()`：生成多标签分类问题的数据集。 - `make_regression()`：生成回归问题的数据集。 4. **特定格式的数据集加载** - `load_svmlight_file()`：用于读取svm-light或libsvm格式的数据，常用于大规模数据集处理。 - `fetch_mldata()`：从mldata.org网站下载数据集，提供一个简单接口来获取预处理好的机器学习数据。通过这些数据集，学习者可以轻松地进行机器学习模型的训练和验证，同时理解不同类型的机器学习问题。此外，计算机生成的数据集因其灵活性，可帮助用户理解算法在不同条件下的表现，并且能够无限生成新的数据，避免了对特定数据集的过度依赖。在示例中，展示了如何导入数据并进行初步的探索性数据分析，这对于实际操作机器学习项目非常重要。

sklearn 数据集一览

类型获取方式

自带的小数据集 sklearn.datasets.load_...

在线下载的数据集 sklearn.datasets.fetch_...

计算机生成的数据集 sklearn.datasets.make_...

svmlight/libsvm格式的数据集 sklearn.datasets.load_svmlight_file(...)

mldata.org在线下载数据集 sklearn.datasets.fetch_mldata(...)

自带的小数据集：

鸢尾花数据集： load_iris() 可用于分类和聚类

乳腺癌数据集： load_breast_cancer() 可用于分类

手写数字数据集： load_digits() 可用于分类

糖尿病数据集： load_diabetes() 可用于分类

波士顿房价数据集： load_boston() 可用于回归

体能训练数据集： load_linnerud() 可用于回归

图像数据集： load_sample_image(name)

计算机生成的数据集：

make_blobs 可用于聚类和分类

make_classification 可用于分类

make_circles 可用于分类

make_moons 可用于分类

make_multilabel_classification 可用于多标签分类

make_regression 可用于回归

sklearn官方文档的数据集介绍：

http://sklearn.apachecn.org/cn/0.19.0/datasets/index.html#datasets (http://sklearn.apachecn.org

/cn/0.19.0/datasets/index.html#datasets)

一，自带的小数据集

下载后可阅读完整内容，剩余8页未读，立即下载

csdn251531103

粉丝: 0
资源: 8

使用sklearn获取与生成数据集详解

LIVE2005_databaserelease2

Live图像库主观值

图像质量评价数据库——LIVE

Corona-Web-Live：实时数据Covid-19

HuYa-Web-Live：HuYa-Web-Live

redux-live:带有数据获取，二十一点和订阅的Redux

ubuntu-18.04.4-live-server-amd64

live555-rtsp-live-v4l2-master(ARM)

zuhaus-live-appsync-backend:在AWS Appsync上创建的zuhaus-live项目的后端

Data-Science-For-Live:通过SKLearn学习数据科学

最新资源