低随机性标签传播聚类:基于网络社区发现

需积分: 15 3 下载量 201 浏览量 更新于2024-08-13 收藏 1.34MB PDF 举报
"基于网络社区发现的标签传播聚类算法是一种针对高维数据聚类问题的方法,通过构建复杂网络并利用社区发现技术来优化聚类效果。该算法由吴清寿、郭磊和余文森提出,旨在降低标签传播过程中的随机性,提高聚类的准确性和稳定性。" 在高维数据的聚类分析中,由于数据的复杂性和不可直观性,传统的聚类方法可能面临挑战。为了应对这一问题,研究者们提出了将数据转化为复杂网络的策略。在这个网络中,每个节点代表一个数据样本,节点间的边则表示样本间的关系。通过网络构建,高维数据的内在结构得以体现,便于进行社区发现,即聚类操作。 算法主要包括以下几个步骤: 1. **网络构建**:采用半径和最近邻方法,将数据集转换成一个稀疏的全连通网络。这种方法保证了网络中的节点至少与其最近的邻居有连接,从而反映了数据样本之间的相似性。 2. **节点标签预处理**:根据节点之间的相似度,对节点标签进行处理,确保相似的节点拥有相同的初始标签。这一步是为后续的标签传播阶段做准备。 3. **标签传播**:在预处理的基础上,引入节点的影响力值来改进标签传播过程。节点的影响力值反映了它对其他节点标签选择的影响,降低了选择标签时的随机性,增加了传播的确定性。 4. **社区优化合并**:最后,根据内聚度(社区内部节点的紧密程度)进行社区的合并,优化聚类结构,提高聚类质量。内聚度是评估社区划分好坏的重要指标,高的内聚度意味着聚类内部节点之间具有更强的关联性。 实验证明,这种基于网络社区发现的标签传播聚类算法在多种类型的真实数据集和人工数据集上表现出良好的适应性,能够有效处理高维数据的聚类问题。通过对网络结构的深入分析和标签传播的控制,该算法为解决高维数据聚类提供了新的思路和工具。 引用本文的格式如下: 吴清寿,郭磊,余文森.基于网络社区发现的标签传播聚类算法.计算机系统应用,2020,29(12):135–143.http://www.c-s-a.org.cn/1003-3254/7712.html 关键词:聚类,网络构建,社区发现,标签传播。