自然最近邻相似图在谱聚类中的应用

需积分: 24 1 下载量 11 浏览量 更新于2024-08-13 收藏 1.62MB PDF 举报
"基于自然最近邻相似图的谱聚类" 谱聚类是一种常见的无监督学习方法,用于发现数据集中的潜在结构和群组。传统的谱聚类算法依赖于相似度矩阵来构建数据对象之间的关系,但这种方法在处理复杂数据集时可能会遇到困难,因为选择合适的相似性度量和参数设定往往需要大量的实验和经验。本文提出的基于自然最近邻相似图的谱聚类算法(NSG-SC)旨在解决这些问题。 自然最近邻(Natural Nearest Neighbor, NNN)是一种创新的最近邻概念,它消除了K最近邻(K-NN)和ε-最近邻(ε-NN)方法对人为设定参数的依赖。NNG-SC算法利用数据集本身的特性来确定相似性,从而避免了因参数选择不当或离群值导致的问题,更准确地反映出数据集的内在结构。 在NSG-SC算法中,首先构建一个自然最近邻相似图,这个图的边权重表示了数据点之间的相似程度。通过这种方式,算法能够自适应地调整相似性,而不是固定一个预先定义的阈值或邻居数量。接着,利用这个相似图来构建拉普拉斯矩阵,这是谱聚类的核心部分,因为它包含了数据点之间的局部和全局连接信息。通过对拉普拉斯矩阵的特征分解,可以得到数据点的低维嵌入,这些嵌入使得相同群组内的点尽可能接近,不同群组的点尽可能远。最后,使用这些低维表示来进行聚类。 实验结果显示,NSG-SC算法在处理结构复杂的数据集时表现出了良好的可行性和有效性。这表明,利用自然最近邻的概念可以提高谱聚类的性能,尤其是在面对需要智能调整参数和处理离散点的问题时。 该研究工作由江苏省产学研合作项目资助,作者包括刘友超和张曦煌。刘友超是硕士研究生,专注于数据挖掘领域;张曦煌是教授和博士,主要研究分布式系统与应用。这篇论文发表于《江南大学物联网工程学院》期刊,对谱聚类方法进行了深入的探讨和改进,对于理解和改进聚类算法,特别是在处理复杂数据时,提供了有价值的洞见。 基于自然最近邻相似图的谱聚类算法NSG-SC是一种创新的聚类方法,它克服了传统谱聚类算法的局限性,提高了在处理复杂数据集时的聚类效果,为数据挖掘和机器学习领域的研究提供了新的思路。