sklearn入门：数据生成与聚类示例

需积分: 0 156 浏览量更新于2024-08-03 收藏 561KB PDF 举报

在本次的学习笔记中，我们关注的是Python机器学习库sklearn的基础操作，特别是在Jupyter Notebook中的应用。sklearn是一个强大的工具包，广泛用于数据预处理、模型选择、评估和可视化。在本节内容中，重点介绍了`make_blobs`函数的使用。 `make_blobs`函数是sklearn.datasets模块中的一个函数，它用于生成二维或更高维度的随机数据集，常用于数据集的创建和聚类算法的演示。以下是该函数的关键参数及其含义： 1. `n_features` (整数): 表示每个样本将具有多少个特征（即属性或维度）。在这个例子中，设为2，意味着生成的数据点将在二维空间中。 2. `n_samples` (整数): 定义生成的样本数量。这里的值没有具体给出，但通常是根据实验需求设定的。 3. `centers` (整数或数组): 聚类中心的数量，也就是不同类别的标签数目。这些中心点决定了生成的数据点将被分配到哪个类别。 4. `random_state` (整数或可重复性随机状态): 设置随机数生成器的种子，确保每次运行时结果可重复。如果提供了相同的随机种子，函数会生成相同的数据分布。 5. `cluster_std` (浮点数或数组): 每个类别的标准差，决定了数据点在类内的散布程度。较大的值会使类内差异更大，反之则更集中。在提供的代码片段中，可以看到`make_blobs`函数被导入，并且产生了两个变量：数据集`data`和对应的标签`label`。数据集`data`是一个包含生成的样本的二维数组，而标签`label`则是对应于每个样本的类别标签。通过这个基础操作，学习者能够熟悉如何使用sklearn来生成模拟数据，这对于理解聚类算法如K-means、DBSCAN等的原理和实现至关重要。后续可能还会涉及如何对生成的数据进行数据探索、数据标准化、模型训练以及性能评估等内容。整体上，这部分笔记有助于初学者掌握sklearn的基本用法，并为后续深入学习和实践打下基础。

2023/11/1 18:48

02sklearn基础操作笔记 - Jupyter Notebook

localhost:8888/notebooks/02sklearn基础操作笔记.ipynb#

3/12

In[10]:

In[11]:

将数据缩放至指定的范围内

class sklearn.preprocessing.MinMaxScaler(feature_range = (0,1), copy = True)

将数据的最大指缩放至1

{'data': array([[5.1, 3.5, 1.4, 0.2],

[4.9, 3. , 1.4, 0.2],

[4.7, 3.2, 1.3, 0.2],

[4.6, 3.1, 1.5, 0.2],

[5. , 3.6, 1.4, 0.2],

[5.4, 3.9, 1.7, 0.4],

[4.6, 3.4, 1.4, 0.3],

[5. , 3.4, 1.5, 0.2],

[4.4, 2.9, 1.4, 0.2],

[4.9, 3.1, 1.5, 0.1],

[5.4, 3.7, 1.5, 0.2],

[4.8, 3.4, 1.6, 0.2],

[4.8, 3. , 1.4, 0.1],

[4.3, 3. , 1.1, 0.1],

[5.8, 4. , 1.2, 0.2],

[5.7, 4.4, 1.5, 0.4],

[5.4, 3.9, 1.3, 0.4],

[5.1, 3.5, 1.4, 0.3],

[5.7, 3.8, 1.7, 0.3],

[5 1 3 8 1 5 0 3]

{'data': array([[6.3200e-03, 1.8000e+01, 2.3100e+00, ..., 1.5300e+01, 3.9690e

+02,

4.9800e+00],

[2.7310e-02, 0.0000e+00, 7.0700e+00, ..., 1.7800e+01, 3.9690e+02,

9.1400e+00],

[2.7290e-02, 0.0000e+00, 7.0700e+00, ..., 1.7800e+01, 3.9283e+02,

4.0300e+00],

...,

[6.0760e-02, 0.0000e+00, 1.1930e+01, ..., 2.1000e+01, 3.9690e+02,

5.6400e+00],

[1.0959e-01, 0.0000e+00, 1.1930e+01, ..., 2.1000e+01, 3.9345e+02,

6.4800e+00],

[4.7410e-02, 0.0000e+00, 1.1930e+01, ..., 2.1000e+01, 3.9690e+02,

7.8800e+00]]), 'target': array([24. , 21.6, 34.7, 33.4, 36.2, 28.7, 2

2.9, 27.1, 16.5, 18.9, 15. ,

18.9, 21.7, 20.4, 18.2, 19.9, 23.1, 17.5, 20.2, 18.2, 13.6, 19.6,

15.2, 14.5, 15.6, 13.9, 16.6, 14.8, 18.4, 21. , 12.7, 14.5, 13.2,

13.1, 13.5, 18.9, 20. , 21. , 24.7, 30.8, 34.9, 26.6, 25.3, 24.7,

21.2, 19.3, 20. , 16.6, 14.4, 19.4, 19.7, 20.5, 25. , 23.4, 18.9,

35 4 24 7 31 6 23 3 19 6 18 7 16 22 2 25 33 23 5

#导入iris数据集

from sklearn.datasets import load_iris

iris = load_iris()

print(iris)

#导入boston数据集

from sklearn.datasets import load_boston

boston = load_boston()

print(boston)

剩余11页未读，继续阅读

李逸666

粉丝: 15

sklearn入门：数据生成与聚类示例

神经网络与深度学习python源码朴素贝叶斯

4.Machine-Learning-Projects:我已经使用sklearn库实现了一些机器学习项目

iitr-deep-learning-spl-tf2:IIT Roorkee 的深度学习专业课程（使用 python、numpy、pandas、sklearn、TensorFlow 2）

pysci：IPython，Numpy，Pandas，Matplotlib，Seaborn，Sklearn，Statsmodels

面试经验分享之机器学习、大数据问题(2).pdf

使用TensorFlow和Sklearn构建CNN分类模型

超参数调优方法与sklearn的实践指南

时间序列分析与预测方法在sklearn中的应用

人工智能原理：机器学习与深度学习的基础与实践

机器学习数学基础：统计学在算法中的核心应用

最新资源