机器学习初步：聚类实验——KMeans、GaussianMixture与SpectralClustering

需积分: 0 168 浏览量更新于2024-08-04 收藏 309KB DOCX 举报

"1120182525-梁瑛平-机器学习初步-聚类实验1" 实验报告中介绍了三种常见的聚类方法，包括KMeans、Gaussian Mixture（GMM）以及Spectral Clustering，并通过iris数据集进行实际操作，旨在提升学生对聚类方法的理解和应用能力。 1. KMeans聚类： KMeans是一种简单且常用的无监督学习算法，用于将数据集划分为k个不同的类别。算法的主要步骤如下： - 初始化：随机选取k个数据点作为初始质心。 - 分配阶段：计算每个数据点与所有质心的距离，根据最近的质心将数据点分配到相应的类别。 - 更新质心：重新计算每个类别的质心，通常取类别内所有点的均值。 - 判断收敛：比较新旧质心的差异，如果差异小于预设阈值，或者达到预定迭代次数，算法结束；否则返回分配阶段。 2. Gaussian Mixture Model (GMM)： GMM是一种生成式模型，它可以模拟数据的多元高斯分布。与KMeans相比，GMM更灵活，能适应复杂的数据分布： - 初始化：设定混合成分的数量，为每个成分随机选择参数（均值和方差）。 - EM算法：包括期望(E)步骤和最大化(M)步骤，不断迭代优化模型参数。 - E步骤：计算每个数据点属于每个高斯分布的概率。 - M步骤：基于E步骤的结果更新高斯分布的参数，以最大化数据被正确分类的概率。 - GMM的EM算法会收敛到局部最优解。 3. Spectral Clustering： Spectral Clustering利用图论概念进行聚类，它首先构造一个数据点间的相似度矩阵，然后将其转化为图，接着通过谱分解找到最佳的切图，实现聚类： - 构建图：根据数据点之间的相似性（如欧氏距离）构建加权图。 - 谱分解：计算图的拉普拉斯矩阵并进行特征分解，找到前k个最小特征值对应的特征向量。 - 划分簇：利用特征向量进行聚类，例如通过KMeans或直接切割特征空间。 4. 聚类应用： - 目标用户群体分类：对用户进行细分，为不同群体提供定制化服务，提高运营效率和效果。 - 商品推荐：通过用户购买历史和行为习惯，将用户分为不同的兴趣群体，进行个性化推荐。 - 图像分割：在图像处理中，聚类可用于识别相似像素，形成图像的各个区域。 - 社交网络分析：识别社交网络中的社区结构，理解用户之间的关系模式。实验目的不仅在于让学生掌握聚类算法的实现，还在于培养他们运用聚类解决实际问题的能力，例如通过聚类分析数据，发现隐藏的模式，为企业决策提供支持。通过对比KMeans、GMM和Spectral Clustering的优缺点，学生可以更好地理解和选择适合特定任务的聚类方法。

1 / 5

学生实验报告

学号

1120182525

学院

徐特立学院

姓名

梁瑛平

专业

计算机科学与技术

聚类

1 实验简介

本实验采用三种聚类方法，对 iris 数据集进行聚类，其目的是提升学生应用聚类方法

解决实际问题的能力。

2 实验目的

（1）帮助学生理解聚类方法在数据科学中的应用。

（2）帮助学生掌握聚类方法的原理。

3 相关理论与知识点

（1）聚类的原理：

① Kmeans：算法流程：

1、首先确定一个 k 值，即我们希望将数据集经过聚类得到 k 个集合。

2、从数据集中随机选择 k 个数据点作为质心。

3、对数据集中每一个点，计算其与每一个质心的距离（如欧式距离），离哪

个质心近，就划分到那个质心所属的集合。

4、把所有数据归好集合后，一共有 k 个集合。然后重新计算每个集合的质心。

5、如果新计算出来的质心和原来的质心之间的距离小于某一个设置的阈值（表

示重新计算的质心的位置变化不大，趋于稳定，或者说收敛），我们可以认为聚类

已经达到期望的结果，算法终止。

6、如果新质心和原质心距离变化很大，需要迭代 3~5 步骤。

② GaussianMixture：高斯混合模型（GMM）可以看做是 k-means 模型的一个优

化。它既是一种工业界常用的技术手段，也是一种生成式模型。高斯混合模型试图

下载后可阅读完整内容，剩余4页未读，立即下载

吹狗螺的简柏承

粉丝: 19
资源: 313

机器学习初步：聚类实验——KMeans、GaussianMixture与SpectralClustering

1120182525-梁瑛平-支持向量机1

山东大学数据科学实验四-----机器学习：聚类和回归

机器学习 --- 聚类性能评估指标

机器学习，聚类实验的实验目的

机器学习K-means聚类代码

机器学习，聚类实验的实验原理

机器学习中有硬聚类算法的概念吗

机器学习图像分割模糊聚类大作业

k-means聚类算法机器学习sklearn

机器学习实验 聚类步骤 1.选择一种聚类算法对鸢尾花做聚类; 2.读入要分类的数据; 3.设置初始聚类中心; 4.根据不同的聚类算法实现聚类。 5.显示聚类结果。 6.按照同样步骤实现学过的所有聚类算法。

最新资源

机器学习实验聚类步骤 1.选择一种聚类算法对鸢尾花做聚类; 2.读入要分类的数据; 3.设置初始聚类中心; 4.根据不同的聚类算法实现聚类。 5.显示聚类结果。 6.按照同样步骤实现学过的所有聚类算法。