数据挖掘实验：K-Means与K-Medoids聚类分析

需积分: 0 163 浏览量更新于2024-08-04 收藏 302KB DOCX 举报

"本次实验由杭州电子科技大学计算机学院的数据仓库与数据挖掘课程组织，由学生应宇杰完成，实验主题为聚类分析，主要探讨了K-Means、K-Mediods两种聚类算法的基本原理、步骤及优缺点。" 在数据挖掘领域，聚类分析是一种无监督学习方法，用于发现数据中的自然群体或类别，无需预先知道具体的类别信息。实验目的是理解聚类的一般过程、基本原理，掌握聚类算法思想，并学会性能评估方法。 1. K-Means聚类算法是广泛应用的聚类方法，其主要步骤如下： - 初始化：随机选择k个数据点作为初始的中心点，k是预设的类别数量。 - 分配：计算所有数据点到中心点的距离，将每个数据点分配到最近的中心点所在的类别。 - 更新：重新计算每个类别的中心点，通常是类别内所有数据点的均值。 - 迭代：重复上述步骤，直至中心点不再显著移动或达到预设的最大迭代次数。K-Means的优点在于计算简单、速度快，但缺点是对初始中心点的选择敏感，且必须预先设定类别数量。 2. K-Mediods聚类算法则是对K-Means的一种改进，它选择类中最具代表性的对象（Mediods）作为中心点，而不是均值。这样做的原因是Mediods对异常值和孤立点的敏感度较低，能更好地反映簇的结构。K-Mediods的步骤与K-Means类似，但更新中心点时选取的是非中心点，以降低对孤立点的敏感性。尽管这种方法对属性类型没有限制，且对孤立点不敏感，但计算复杂度相对较高，需要预先设定簇的数量。两种算法在实际应用中各有优劣，选择哪种方法通常取决于具体问题的性质和需求。在进行聚类分析时，还需要考虑性能评估指标，如轮廓系数、Calinski-Harabasz指数等，以衡量聚类的效果和合理性。总结来说，本实验深入探讨了K-Means和K-Mediods这两种聚类算法的实现细节和适用场景，旨在提升学生的理论知识和实践能力，以便在实际项目中有效地运用聚类技术。

杭州电子科技大学计算机学院

数据仓库与数据挖掘

实验 3：聚类分析

时间：2022 年 1 月 1 日，学号：19151633 姓名：应宇杰

一、实验目的

1、理解聚类的一般过程和基本原理；

2、巩固聚类算法的算法思想，能够进行聚类操作；

3、学会聚类中的性能评估方法。

二、实验原理

1、常用的聚类算法：K-Means、K-Mediods、凝聚层次聚类和 DBSCAN 算法等。

（1） K-Means(K 均值)聚类

算法步骤：

(1) 首先我们选择一些类/组，并随机初始化它们各自的中心点。中心点是与每个数据点向量

长度相同的位置。这需要我们提前预知类的数量(即中心点的数量)。

(2) 计算每个数据点到中心点的距离，数据点距离哪个中心点最近就划分到哪一类中。

(3) 计算每一类中中心点作为新的中心点。

(4) 重复以上步骤，直到每一类中心在每次迭代后变化不大为止。也可以多次随机初始化中

心点，然后选择运行结果最好的一个。

优点：

速度快，计算简便

缺点：

必须提前知道数据有多少类/组。

（2）K-Mediods

下载后可阅读完整内容，剩余8页未读，立即下载

销号le

粉丝: 32
资源: 289

数据挖掘实验：K-Means与K-Medoids聚类分析

应宇杰 19151633关联规则挖掘1

数塔应宇杰19151633 1

应宇杰_19151633_讲座心得体会1

应宇杰+19151633+各种排序算法1

应宇杰-19151633-数据结构思政报告1

应宇杰-19151633-计算机科学导引课程报告 1

选题4 19151633 应宇杰1

19151633 应宇杰 实验报告1

19151633+应宇杰企业参观报告1

116+19151633+应宇杰1

最新资源

19151633 应宇杰实验报告1