改进的密度自适应谱聚类算法提升多尺度数据集处理性能

151 浏览量更新于2024-08-30 1 收藏 527KB PDF 举报

本文主要探讨了一种改进的自适应谱聚类算法，针对传统谱聚类在构建相似度矩阵时对尺度参数的敏感性以及在处理多重尺度数据集时效果不佳的问题。作者提出了一种基于密度调整的方法，该方法的核心思想是将样本点所处领域的密度考虑进聚类过程，通过密度差异来调整样本点之间的相似度，从而更好地反映实际簇类中样本点之间的内在联系。这种方法在一定程度上缓解了多尺度数据集的复杂性，使得聚类结果更加准确。在传统谱聚类中，尺度参数的选择对聚类结果至关重要，但往往需要人工设定或通过试错方式确定，这可能导致结果的不稳定。新的算法通过引入样本点的近邻距离，实现了尺度参数的自适应性，这意味着算法能够根据数据本身的特性动态调整，降低了对固定尺度参数的依赖，提高了算法的鲁棒性。为了验证这种改进算法的有效性和优越性，研究者进行了仿真实验。实验结果表明，与常规谱聚类方法相比，基于密度调整的自适应谱聚类算法在处理多重尺度数据集时表现出更好的性能，聚类结果更为稳定且准确，尤其是在面对数据复杂性和不确定性的情况下。因此，这种新型算法对于实际的IT数据分析任务具有很高的实用价值，特别是在需要处理大规模、高维度、具有不同尺度特征的数据集时，可以显著提高聚类分析的效率和精度。这篇论文提供了一个创新的思路，即通过结合密度信息和自适应策略来优化谱聚类算法，解决传统谱聚类中的关键问题，为处理多尺度数据集提供了有效的解决方案。这对于提升机器学习和数据挖掘领域的技术能力，尤其是在大数据处理和智能分析领域，具有重要的理论和实践意义。

第 29 卷第 9 期

Vol. 29 No. 9

控制与决策

Control and Decision

2014 年 9 月

Sep. 2014

基于密度调整的改进自适应谱聚类算法

文章编号: 1001-0920 (2014) 09-1683-05 DOI: 10.13195/j.kzyjc.2013.0660

王雅琳, 陈斌, 王晓丽, 桂卫华

(中南大学信息科学与工程学院，长沙 410083)

摘要: 针对谱聚类存在构造相似度矩阵时对尺度参数敏感以及处理多重尺度数据集效果不理想的缺陷, 提出一种

基于密度调整的改进自适应谱聚类算法. 该算法将样本点所处领域的密度引入谱聚类, 利用密度差来调整样本点之

间的相似度, 使其更符合实际簇类中样本点间的内在关系, 在一定程度上解决了多尺度聚类问题; 同时, 通过样本点

的近邻距离自适应得到尺度参数, 使算法对尺度参数相对不敏感. 仿真实验验证了所提出算法的有效性和优越性.

关键词: 谱聚类；密度调整；自适应；尺度参数；多重尺度数据集

中图分类号: TP181 文献标志码: A

Improved adaptive spectral clustering algorithm based on density

adjustment

WANG Ya-lin, CHEN Bin, WANG Xiao-li, GUI Wei-hua

(School of Information Science and Engineering，Central South University，Changsha 410083，China. Correspondent:

WANG Ya-lin，E-mail：ylwang@csu.edu.cn)

Abstract: As spectral clustering is sensitive to the scaling parameter while calculating the afﬁnity matrix and the result of

clustering multi-scale dataset is not ideal, an improved adaptive spectral clustering algorithm based on density adjustment

is proposed. The algorithm introduces local density of data into spectral clustering, using the density difference to adjust

the similarity between sample points, which makes it more consistent with the data points’ internal relations of the clusters’

actual structure. So that it solves the multi-scale clustering problem to some extent. At the same time, the algorithm is

relatively insensitive to the scaling parameter by using the distances between data points and their neighbor points to get the

scaling parameter adaptively. Simulation experiment shows the effectiveness and superiority of the proposed algorithm.

Key words: spectral clustering；density adjustment；adaptive；scaling parameter sensitivity；multi-scale dataset

0 引引引言言言

作为数据挖掘中进行数据处理的一种重要方

法

[1]

, 聚类分析是根据一定的相似准则将数据对象划

分为由类似对象组成的多个类的过程. 由聚类得到

的同一类中的对象彼此相似, 而不同类中的对象彼

此相异. 现如今, 聚类算法已经有很多种, 如传统的

𝐾-means 算法

[2]

、FCM 算法

[3]

等. 这些经典的聚类算

法虽然在凸样本空间上有比较好的聚类效果, 但是当

样本空间不为凸时, 算法很容易陷入局部最优. 近年

来出现的谱聚类算法使得这个问题得以解决. 谱聚

类

[4-6]

是一种性能优越的聚类算法, 它不受数据集样

本点簇类形状的影响, 即使样本空间非凸, 也能得到

全局最优解, 因此, 谱聚类很快成为了关注焦点

[7-10]

谱聚类算法具有比其他聚类算法更优越的性能,

但其本身也存在构造相似度矩阵时对尺度参数比较

敏感以及处理多重尺度数据集时结果不理想等问

题. 为此, 广大学者对谱聚类算法进行了研究. Gong

等

[11]

通过数据点的邻近点信息来构造相似图, 以此

获得数据点间的相似度矩阵, 提出了一种基于局域信

息的谱聚类算法; Ozertem 等

[12]

利用 Mean Shift 算法

求得的权值来建立谱聚类中的相似图, 提出了一种

Mean Shift 谱聚类算法; 周林等

[13]

提出了基于谱聚类

的聚类集成算法, 首先利用谱聚类算法的内在特性

构造多样性聚类成员, 然后采用连接三元组方法和

Nystr

om 采样方法计算相似度矩阵, 扩充了数据点之

间的相似性信息. 以上算法都不需要人为设定尺度

收稿日期: 2013-05-21；修回日期: 2013-08-28.

基金项目: 国家自然科学基金项目(61273187)；教育部博士点新教师类基金项目(20120162120022)；湖南省科技计划

项目(2012CK4018).

作者简介: 王雅琳(1973−), 女, 教授, 博士, 从事复杂过程建模、优化与控制等研究；陈斌(1989−), 男, 硕士生, 从事数

据挖掘与聚类分析的研究.

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38705558

粉丝: 4
资源: 943

改进的密度自适应谱聚类算法提升多尺度数据集处理性能

matlab实现自适应谱聚类代码

论文研究-基于密度峰值优化的谱聚类算法.pdf

密度调整的自适应谱聚类算法研究

自适应谱聚类算法：自动参数选择的新方法

基于蜂群原理的自适应划分聚类算法：无K值限制与高效性能

论文研究-一种基于网格密度的自适应聚类分析算法.pdf

Matlab实现(KNN)自适应谱聚类

一种基于自适应相似矩阵的谱聚类算法.pdf

一种基于自适应相似矩阵的谱聚类算法.docx

计算机研究 -面向工业数据流的参数自适应实时聚类算法研究.pdf

最新资源