流形上排序定义的光谱聚类亲和图

0 下载量 59 浏览量 更新于2024-08-27 收藏 638KB PDF 举报
"这篇文章主要探讨了在频谱聚类中如何通过流形上的排序来定义亲和图,以此改进现有算法的局限性。作者提出了平滑一致性和约束一致性这两个概念,用于保持亲和图的性质,并在流形的排序正则化框架下构建新的亲和图定义。该方法不仅适用于无监督聚类,还能应用于半监督场景。实验结果显示,这种方法在处理合成数据和真实世界数据时表现出良好的效果。" 在传统的频谱聚类中,数据集被转化为亲和图,然后寻找最优的图划分进行聚类。然而,通常使用的高斯函数作为亲和度计算方式存在局限性,因为它难以体现数据的内在结构,并且需要手动选择合适的缩放参数,这是一个尚未解决的问题。针对这一问题,文章提出了一个新的策略,即通过在流形上的排序来定义亲和图。 首先,文章引入了平滑一致性(Smoothness Consistency)的概念,旨在确保相邻数据点之间的亲和度较高,从而更好地捕捉数据的局部结构。其次,约束一致性(Constraint Consistency)则是为了保持亲和图的一致性,确保聚类结果与数据的固有属性相符。这两种一致性原则结合在一起,为构建新的亲和图提供了理论基础。 接下来,作者在流形上的排序正则化框架内定义了新的亲和图。这个框架允许对数据点进行排序,从而揭示它们之间的相对关系,同时考虑到了数据的内在几何结构。通过这种方式,新定义的亲和图能够更好地反映数据的固有结构,而不依赖于特定的缩放参数。 该方法不仅适用于无监督聚类,还能够扩展到半监督场景,这意味着即使在部分标签的情况下,也能有效地进行聚类。实验部分,作者使用合成数据和真实世界的数据集验证了新方法的有效性,结果表明,与传统方法相比,该方法在聚类性能上有所提升。 这篇文章为频谱聚类提供了一种新的视角,通过在流形上定义和优化亲和图,解决了高斯函数的局限性,并且提高了聚类的准确性和鲁棒性。这项工作对于理解和改进聚类算法,特别是频谱聚类方法,具有重要的理论和实践意义。