R语言中的K均值聚类分析实践

下载需积分: 0 | PDF格式 | 5.9MB | 更新于2024-08-05 | 58 浏览量 | 举报

"该资源是关于无监督学习中的聚类分析，特别是K-means聚类算法在R语言中的应用。通过一个模拟案例展示了如何使用R的kmeans函数进行聚类，并探讨了聚类效果和参数设定。" 在无监督学习中，聚类是一种常用的方法，用于将相似的数据点归入同一类别，而无需预先知道类别的信息。K-means聚类是一种简单且常用的聚类算法，其核心思想是通过迭代优化，使得每个数据点尽可能接近其所属类别的中心，而类别的中心则是该类别所有数据点的均值。在R语言中，K-means聚类可以通过`kmeans()`函数实现。这个函数接受两个主要参数：`x`代表数据集，`k`表示想要划分的类别数量。在提供的示例中，首先设置随机种子以确保结果可重复，然后创建了一个50行2列的随机正态分布数据矩阵`x`。为了模拟两类数据，前25个观测值在第一列和第二列分别有一个均值漂移。接着，调用`kmeans(x, 2, nstart=20)`执行K-means聚类，其中`2`表示设定2个聚类，`nstart=20`指定了运行K-means的初始中心选择次数，以避免局部最优解。运行后，聚类结果存储在`km.out$cluster`中，显示50个观测被完美地分配到两个类别中。通过将聚类结果与数据点的颜色关联，可以直观地看到聚类效果。在二维数据上，可以直接绘制数据点并着色，而在多维数据中，可以利用主成分分析（PCA）降低维度后再进行可视化，例如画出前两个主成分得分的图。在实际应用中，真实的数据类数通常是未知的。因此，选择合适的类别数量是个挑战。示例中展示了将数据进行K=3的聚类，可以看到聚类结果可能不那么明显，且聚类中心和分类情况会有所不同。 K-means算法的性能依赖于初始中心的选择。`nstart`参数可以设置多次启动，每次使用不同的随机中心，最终选取使总平方误差最小的那次结果。此外，K-means算法对异常值敏感，且假设数据分布是球形的，如果数据分布不均匀或存在噪声，可能会影响聚类效果。在评估聚类质量时，可以使用如轮廓系数等方法，它衡量了每个数据点与其所在簇其他点的平均距离与到最近簇的平均距离的比值，从而判断聚类的紧密度和分离度。对于实际问题，理解数据的先验知识和选择适当的聚类数量至关重要。

280

第10章

无指导学习

10，

5 实验

2：

聚

类分析

，5，

均

值

聚类

在

中

，

kmeans

函数

用于执

行K 均

值聚类。

下面

讨论

一

个简单

的模拟案例，

这个案例

中的

数据确

实有

两

个类

：

与

后

个观

测

相比，

前 25个观测有

一

个均值漂移。

set.seed(2)

x—matrix(rnorm(50*2)

，

ncol

：2）

[ 1：25

，1

〕

[ 1：25 ，

1 〕+ 3

x [ 1：

，2

〕

[

1：

25 ，2 ] 一

现

在进行

K ：

2时

的K

均值聚类。

km.out=kmeans(x

，

2,nstart=20)

50个观

测

的分

类

结果

保

存

在

km.

out $

cluster 中。

km.out$cluster

[ 1〕2

2 2

2 2 2

2 2

2 2 2

2 2 1 1 1 1

均值聚

类

法

把

观

测完

美地分配到了

2个类

中

，

即

使

kmeans 0 函

数

中没

有输

人任何关于类的

信息。

也可

以

根据

分类

结果

对观

测着

色，

并

绘制

出包含这些分类信息的图。

> plot(),

col=(km.out$cluster+l)

，

main="K—Means

、

Clustering

Results with K=2't

ylab='t"

pch=20，

cex=2)

如果数据

是

二

维的，

那么

各个观

测的图

易于

绘制。

如果变

量的个数多于

两个，

可

以转

而

进行

PCA, 绘制

出前两

个

主

成分

得分向量的图。

本

例中

的模拟

数据

都是人

为生

成的，

数据真

实的聚

类数确实

是

两

类。但

对于

现实

中的数据

而

言，真实的类数一般是

未知

的。在这个

例子中，

也可

以对

数据

进行

：

3的

K 均值聚类。

> set.seed(4)

km.out=kmeans(x，3，nstart=20)

> km．out

K—means

clustering

with 3

clusters

Cluster

means：

[ ，1 ]

[ ，2 ]

1 2，3001545

一2，69622023

2一0，3820397一0，08740753

3．7789567

一

4．56200798

Clustering vector：

[

1 ] 3 1 3 1 3 3

3 1 3氵

1 3

1 3 1

2 2 2 2 2 2 2

2 2 2

2 2 2 2

0 £ 8土z e 8 10 ，

3 1 3 3

1 2 1

2 2

Within cluster sum

squares by cluster ：

[ 1〕19 ，

56137 52、67700

25，74089

(between—SS

total—SS

79．

3 %）

Available

components

：

" C 1 u S t e r

centers

" t 0 t “ v 土t h土n s 8

"betweenSS

S土

Z e

23 ， 17

1 3 3

3，、2

2 2

"vithinss

> plot()j col=(km.out$cluster+l)

，厘a土

：

以K ·

Mea

皿8

Clustering

R e s u 1 t s 付土t h K =

，

ylab=""

pch=20 ， c

e x =

2）

下载后可阅读完整内容，剩余7页未读，立即下载

daidaiyijiu

粉丝: 20
资源: 322

R语言中的K均值聚类分析实践

chap6_upload_sql源码压缩包解析

Unix/Linux系统核心内容chap8_1讲解

掌握技术章节样本：chap5_sample.7z解析

SPR_95_2_Chap10_DNN_pdf_

CHAP9_1.rar_CHAP9_1_PID 伺服系统_伺服_伺服系统摩擦_摩擦

chap5_4plant.rar_chap5_4plant_鲁棒控制

chap10_1(1).m

chap10_code.zip

python入门_day8_Chap10_文件

chap10_3.zip_matlab例程_matlab_

最新资源