大规模网络重叠社区发现:谱聚类集成算法

需积分: 0 0 下载量 131 浏览量 更新于2024-08-05 收藏 916KB PDF 举报
"网络重叠社区发现的谱聚类集成算法_黄发良1" 文章主要探讨了如何解决大规模网络社区发现中计算成本过高的问题,提出了一个名为谱聚类集成算法(SCEA)的方法,特别适用于网络重叠社区的识别。网络社区通常指的是在网络图中,节点之间有高度连接的子集,这些子集可能有部分重叠。谱聚类是一种基于图论的聚类技术,它通过计算图的特征向量来划分节点。 在SCEA算法中,首先采用KASP(快速近似谱聚类)算法生成多个不同的个体聚类结果。KASP算法能够在保持较高聚类质量的同时降低计算复杂性,适应大数据集的处理需求。接着,引入个体聚类选择机制,通过对这些个体聚类进行评估和筛选,选取最优的个体聚类。这一过程有助于减少冗余和提高聚类的多样性。之后,算法构建簇相似图,该图反映了不同个体聚类之间的关系,为后续的层次软聚类做准备。层次软聚类允许节点同时属于多个聚类,从而能够捕捉到网络中的重叠社区结构。 实验结果表明,SCEA算法在挖掘网络重叠社区时,其规范化互信息(NMI)指标优于其他代表性算法如CPM、Link、COPRA和SSDE,这意味着SCEA能更准确地揭示网络的社区结构。同时,SCEA还表现出较好的鲁棒性,即在面对数据噪声或异常值时,仍能保持稳定的聚类效果。 关键词涉及到的核心概念包括:重叠社区发现,这是研究网络中节点可以同时属于多个社区的场景;谱聚类,这是一种基于图谱理论的聚类方法,通过分析图的拉普拉斯矩阵来划分节点;集成聚类,这是将多个聚类结果综合考虑,以提升聚类质量和稳定性的一种策略。 中图分类号:TP273,这表明该研究属于计算机科学技术领域的应用软件部分。文献标志码A表示该文章是学术性原创研究。 黄发良等人的工作为大规模网络社区发现提供了一种有效且适应重叠结构的解决方案,通过谱聚类集成算法提高了聚类质量和效率。这种方法对于理解复杂网络结构,如社交网络、信息网络或生物网络中的群组模式有着重要的理论和实际意义。