谱聚类算法探究：k与的影响

需积分: 0 146 浏览量更新于2024-08-05 收藏 328KB PDF 举报

本资源主要涉及的是谱聚类算法在数据划分问题上的应用，具体是针对一个由两个半月形分布产生的200个数据点进行聚类。问题要求编写一个实现"Normalized Spectral Clustering - Algorithm 3 (Ng算法)"的程序，并探讨不同参数设置（即σ和k值）对聚类结果的影响。提供的标签包括“聚类”、“算法”和“矩阵”，暗示了这是数据挖掘或机器学习领域的作业内容。在谱聚类中，亲和性矩阵W的计算基于k-近邻方法，每个数据点与其k个最近邻形成边，且矩阵需对称。矩阵的构建是通过计算样本点间的距离，然后依据给定的亲和度公式生成。σ用于控制距离的平滑程度，通常是一个正态分布的标准差。已知前100个点属于一个聚类，后100个点属于另一个聚类，以此评估聚类精度Accu，该指标衡量的是正确分类的样本点数量占总样本数的比例。在实现上，数据加载函数用于从txt文件读取实验数据，图构造函数负责构建数据图和亲和性矩阵，而谱聚类函数则根据输入的亲和性矩阵进行计算，通过Laplacian矩阵找到前c个最小特征值对应的特征向量，这些向量被用作新的特征空间，然后用K-means算法进行最终的聚类。实验结果显示，当σ值适当且k值较小（例如σ=1，k=10）时，可以达到完全正确的聚类结果。随着k值增大，聚类精度Accu降低，因为大k值可能导致两个聚类间的样本点建立连接，使得图不再满足二部图的条件，分离两个聚类变得更加困难。同时，当固定k值时，增大σ值会降低聚类精度，原因可能是σ过大强化了原本应该属于不同聚类的点之间的联系。在分析过程中，还发现当σ值增大时，分类结果的正确性并不受影响，这表明在这种情况下，σ的选择对聚类结果不敏感。然而，当固定σ时，增大k值会导致聚类精度下降，这一现象与固定k时观察到的效果一致。此作业强调了谱聚类中参数选择的重要性，σ和k值的适当调整对获得准确聚类至关重要。在实践中，应根据数据的特性以及对聚类结果的要求，通过实验探索最佳的参数组合。

黎郡 2020E8017782051

Assignment-5

Question

关于谱聚类。有如下 200 个数据点,它们是通过两个半月形分布生成的。如图所示:

请编写一个谱聚类算法,实现"Normalized Spectral Clustering—Algorithm 3 (Ng 算法)".

设点对亲和性(即边权值)采用如下计算公式:

数据图采用 k-近邻方法来生成(即对每个数据点 ,首先在所有样本中找出不包含的 k 个最邻近的样

本点,然后与每个邻近样本点均有一条边相连,从而完成图构造)。

注意,为了保证亲和度矩阵 W 是对称矩阵,可以令 . 假设已知前 100 个点为一个聚类, 后

100 个点为一个聚类,请分析分别取不同的值和 k 值对聚类结果的影响。 (本题可以给出关于聚类精

度随着值和 k 值的变化曲线。在实验中,可以固定一个,变化另一个).

附注：聚类精度 Accu 计算如下：

其中，表示正确的属于第一个聚类的样本点的个数；表示正确的属于第二个聚类的样本点

的个数；n 表示样本点的总数。

下载后可阅读完整内容，剩余6页未读，立即下载

ali-12

粉丝: 34
资源: 328

谱聚类算法探究：k与的影响

计算系统基础第二次上机作业附加题Python题解_丛进1

风险管理与金融机构课后附加题参考答案(中文版).docx

吴恩达机器学习第二周编程作业（包括附加题）

操作系统课后题 课后作业 第三次作业 (2).docx

第1次作业 个人项目实战1

java代码-附加题 猴子摘桃

西南交通大学-zhy-数据结构第5次作业.zip

软件工程第三次作业.docx

专题资料（2021-2022年）保险学第二次作业(1).docx

西安交通大学19年3月课程考试《工程造价及概预算》作业考核试题（含主观题）.docx

最新资源

操作系统课后题课后作业第三次作业 (2).docx

第1次作业个人项目实战1

java代码-附加题猴子摘桃