sklearn实战：生成数据与聚类分析

需积分: 0 167 浏览量更新于2024-08-03 收藏 610KB PDF 举报

本篇笔记主要介绍了scikit-learn (sklearn) 中用于数据生成的函数`make_blobs()`，这是一个常用的工具，常用于创建模拟数据集来测试和演示聚类算法或机器学习模型。以下是关键知识点的详细解析： 1. **`make_blobs()`函数**：这是sklearn.datasets模块下的一个函数，用于生成二维或高维的随机球形分布数据集。它接受多个参数： - `samples`（n_samples）：表示数据集中样本的总数。 - `n_features`：每个样本的特征数量，即维度。 - `centers`：预定义的聚类中心数量，相当于数据的类别或标签数目。 - `cluster_std`：每个类别的标准差，控制了数据点在类别内的散布程度。 - `center_box`：生成聚类中心的边界，定义了数据的取值范围。 - `shuffle`：布尔值，如果True则对生成的数据进行随机排序。 - `random_state`：可选的随机种子，用于保证每次调用时数据的一致性。若为None，则使用当前系统时间作为随机种子。 - `return_centers`：布尔值，决定是否返回聚类中心。 2. **示例代码分析**： - `In[3]`中展示了一个使用`make_blobs()`函数的实例，生成了200个样本，其中包含2个类别（由centers参数设定），每个样本有2个特征（n_features=2）。数据集的中心点、标准差和随机性通过参数设置。 - 示例中的数据列表显示了生成的前20个样本的特征值，这些数据可用于后续的数据预处理、可视化或模型训练。 3. **应用场景**： - `make_blobs()`通常用于数据集构建，帮助开发者理解和测试聚类算法的效果，如K-means、DBSCAN等，或者在演示机器学习概念时作为简单示例数据。 - 在实际项目中，根据具体问题，可能需要调整参数以模拟不同复杂度和结构的数据集。总结来说，这篇笔记通过介绍`make_blobs()`函数的使用方法和参数含义，展示了如何使用sklearn库生成模拟数据以支持数据科学项目的实践和教学。对于任何从事数据分析或机器学习的人而言，掌握这个工具是至关重要的，因为它能帮助快速生成多样化的训练数据，从而更好地评估和优化模型性能。

2023/10/31 21:16

sklearn笔记2 - Jupyter Notebook

localhost:8888/notebooks/sklearn笔记2.ipynb#

1/10

make_blobs

为了

⽣

成

数据

集

data,label = make_blobs(samples=100, n_features=2, *, centers=None,

cluster_std=1.0, center_box=(-10.0, 10.0), shuﬄe=True, random_state=None,

return_centers=False)

n_features

表

示

每

⼀个

样本有

多

少

特

征

值

n_samples

表

示

样本

的

个

数

centers

是

聚

类

中

⼼

点

的

个

数

，

可

以

理

解

为

label

的

种

类

数

random_state

是

随

机

种

⼦

，

可

以

固

定

⽣

成

的

数据

cluster_std

设

置

每

个

类

别

的

标

准

差

shuﬄe

把

数据

随

机

排

列

In[3]:

[ 7.4934131 , 11.00892356],

[ 4.69777002, 0.59687317],

[ 9.19642422, 11.57536954],

[ 8.80996213, 11.9021701 ],

[ 7.5952749 , 1.32739544],

[ 8.20330317, 1.27929111],

[ 8.59258191, -0.29022607],

[ 6.89228905, 8.60634293],

[ 8.00405631, 10.53695374],

[ 8.14715032, 2.09399376],

[ 7.06363179, -0.57743891],

[ 6.34526126, 8.70677779],

[ 5.28435774, 10.16972385],

[ 6.62257531, 2.04423066],

[ 7.40314915, 10.42342437],

[ 7.27423265, 9.18459991],

[ 8.77188508, 0.768341 ],

[ 6.39995999, 0.07580004],

[ 7.44636985, 11.43674954],

[ 7.74488453, 0.14409178],

from sklearn.datasets import make_blobs

data = make_blobs(n_samples = 200,centers = 2,random_state = 8)

print(data)

X,y = data

下载后可阅读完整内容，剩余9页未读，立即下载

2201_76109579

粉丝: 0
资源: 1

sklearn实战：生成数据与聚类分析

sklearn 学习笔记

sklearn基本操作笔记.ipynb

sklearn机器学习笔记：数据预处理与特征工程.pdf

机器学习笔记2–sklearn之iris数据集

intro-to-sklearn, 用 sklearn，ML和提示覆盖介绍性材料的笔记本电脑.zip

Python-数据科学笔记本分类任务使用sklearn和Tensorflow实现

sklearn数据分析（pandas学习笔记 + 菜菜skelarn完整版）

pydata-nyc-advanced-sklearn:关于 scikit-learn 更高级功能的 PyData NYC 2014 教程的笔记本（和幻灯片）

StatisticsMethodsOfDataProcessing：最终学生的项目，使用python jupyter笔记本，scipy，numpy，pandas和sklearn

sklearn评估：简化机器学习模型评估：绘图，表格，HTML报告，实验跟踪和Jupyter笔记本分析

最新资源