Spark驱动的并行社区发现优化算法

需积分: 12 180 浏览量更新于2024-08-13 收藏 1.16MB PDF 举报

"基于Spark的并行社区发现算法是一种针对大规模图数据的顶点聚类方法，旨在提高社区发现的效率。该算法基于极值优化的串行社区发现算法，并针对其在簇调整阶段的效率问题进行了改进。通过引入一种多个顶点选择策略和顶点过滤方法，该算法能有效地减少计算量和数据量，从而实现更快的运行速度。实验结果显示，提出的算法在运行时间上显著优于其他基于Spark的并行社区发现算法，表现出较高的并行性能。" 详细说明：社区发现是图数据分析中的一个重要任务，旨在识别出图中紧密连接的顶点子集，这些子集称为社区，反映了图中的结构特征。随着大数据时代的到来，大规模图数据的处理变得越来越重要，传统的串行算法无法满足高效处理的需求。Apache Spark作为一个分布式计算框架，因其内存计算和易用性，成为并行处理大规模数据的理想选择。本研究提出的基于Spark的并行社区发现算法，首先建立在一种基于极值优化的串行算法基础之上。该串行算法通过迭代优化过程寻找图中的社区结构。然而，串行算法在调整簇的过程中，由于选择的顶点数量不足，可能影响算法的效率。为解决这个问题，研究者设计了一个新的顶点选择策略。该策略计算适应度阈值，选择适应度值低于该阈值的所有顶点，以此来扩大选择范围。同时，为了避免过大的适应度值对阈值的偏移，算法对被选择顶点的数量进行了限制。如果选择的顶点过多，算法会进一步筛选，保留部分顶点，以保持算法的效率。此外，为了进一步优化处理大规模图数据，研究者还提出了一种顶点过滤方法。这种方法通过减少图中不重要的边或顶点，降低数据量，减轻计算负担，同时保持社区结构的完整性。这一方法有助于在不影响社区发现效果的前提下，提高算法的运行速度。实验结果验证了新算法的有效性，它在运行时间上的优势表明，与现有的基于Spark的并行社区发现算法相比，该算法能够更快地完成社区发现任务。这不仅体现了算法设计的创新性，也为处理大规模图数据提供了更高效的解决方案，对于数据密集型计算和存储领域的研究具有重要意义。

收稿日期：２０１９０３１２；修回日期：２０１９０４２８　　基金项目：国家重点研发计划资助项目（２０１６ＹＦＢ１０００６００）；中国科学院战略性先导科

技专项资肋项目（ＸＤＡ０６０１０３０７）

作者简介：刘东江（１９８８），男（通信作者），内蒙古人，博士，主要研究方向为数据挖掘、机器学习（ｌｄｏｎｇｊｉａｎｇ＠ｙｅａｈ．ｎｅｔ）；黎建辉（１９７３），男，湖北

人，研究员，博导，博士，主要研究方向为数据密集型计算、数据密集型存储．

基于Ｓｐａｒｋ的并行社区发现算法



刘东江

１，２

，黎建辉

１

（１．中国科学院计算机网络信息中心，北京１００１９０；２．中国科学院大学，北京１００１９０）

摘　要：针对大规模图数据顶点聚类进行研究，提出了一种基于Ｓｐａｒｋ的并行社区发现算法，其在基于极值优

化的串行社区发现算法的基础上设计而成。此外还针对该串行算法在簇调整时因选择顶点数量过少而影响算

法运行效率的问题，提出了一种多个顶点选择方法。该方法会计算一个阈值并发现所有适应度值小于该阈值的

顶点，作为被选择的顶点；由于阈值是基于所有顶点的适应度值计算出来的，为了避免非常大的适应度值对阈值

造成的影响该方法会限制被选择顶点的数量，若被选择的顶点过多，算法只保留其中的一部分。同时，还提出了

一种顶点过滤方法，其可以有效减少图数据的数据量。实验表明，提出算法的运行时间明显短于比较的其他基

于Ｓｐａｒｋ的并行化社区发现算法，可以发现其运行速度相对较快。

关键词：社区发现；Ｓｐａｒｋ；并行算法；图聚类；图数据

中图分类号：ＴＰ３９１　　　文献标志码：Ａ　　　文章编号：１００１３６９５（２０２０）０８００３２２５５０６

ｄｏｉ：１０．１９７３４／ｊ．ｉｓｓｎ．１００１３６９５．２０１９．０３．００５３

ＰａｒａｌｌｅｌｉｚｅｄｃｏｍｍｕｎｉｔｙｄｅｔｅｃｔｉｏｎａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎＳｐａｒｋ

ＬｉｕＤｏｎｇｊｉａｎｇ

１，２

，ＬｉＪｉａｎｈｕｉ

１

（１．ＣｏｍｐｕｔｅｒＮｅｔｗｏｒｋＩｎｆｏｒｍａｔｉｏｎＣｅｎｔｅｒ，ＣｈｉｎｅｓｅＡｃａｄｅｍｙｏｆＳｃｉｅｎｃｅｓ，Ｂｅｉｊｉｎｇ１００１９０，Ｃｈｉｎａ；２．ＵｎｉｖｅｒｓｉｔｙｏｆＣｈｉｎｅｓｅＡｃａｄｅｍｙｏｆＳｃｉ

ｅｎｃｅｓ，Ｂｅｉｊｉｎｇ１００１９０，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：ＴｈｉｓｐａｐｅｒｆｏｃｕｓｅｄｏｎｇｒａｐｈｃｌｕｓｔｅｒｉｎｇａｎｄｐｒｏｐｏｓｅｄａｐａｒａｌｌｅｌｉｚｅｄｃｏｍｍｕｎｉｔｙｄｅｔｅｃｔｉｏｎａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎＳｐａｒｋ．

Ｔｈｉｓａｌｇｏｒｉｔｈｍｗａｓｂａｓｅｄｏｎｓｅｑｕｅｎｃｅｃｏｍｍｕｎｉｔｙｄｅｔｅｃｔｉｏｎａｌｇｏｒｉｔｈｍｕｓｉｎｇｅｘｔｒｅｍａｌｏｐｔｉｍｉｚａｔｉｏｎ．Ｔｈｅｓｅｑｕｅｎｃｅａｌｇｏｒｉｔｈｍｔｒｉｅｄ

ｔｏｃｈｏｏｓｅｏｎｅｖｅｒｔｅｘｅａｃｈｔｉｍｅｗｈｅｎａｄｊｕｓｔｔｈｅｃｌｕｓｔｅｒｓ．Ｓｏｉｔｗｏｕｌｄｔａｋｅｌｏｎｇｔｉｍｅｔｏａｄｊｕｓｔｔｈｅｃｌｕｓｔｅｒｓ．Ｆｏｒｔｈｉｓｒｅａｓｏｎ

，ｔｈｅ

ｐｒｏｐｏｓｅｄａｌｇｏｒｉｔｈｍａｄｏｐｔｅｄａｎｅｗｍｕｌｔｉｖｅｒｔｉｃｅｓｓｅｌｅｃｔｉｏｎｍｅｔｈｏｄ．Ｔｈｉｓｍｅｔｈｏｄｔｒｉｅｄｔｏｃａｌｃｕｌａｔｅａｔｈｒｅｓｈｏｌｄｖａｌｕｅａｎｄｆｏｕｎｄ

ａｌｌｔｈｅｖｅｒｔｉｃｅｓｗｈｏｓｅｆｉｔｎｅｓｓｖａｌｕｅｗａｓｓｍａｌｌｅｒｔｈａｎｔｈｅｔｈｒｅｓｈｏｌｄｖａｌｕｅ．Ｔｈｅｎｔｈｅｐｒｏｐｏｓｅｄａｌｇｏｒｉｔｈｍａｌｓｏｎｅｅｄｅｄｔｏｃｈａｎｇｅｔｈｅ

ｃａｔｅｇｏｒｙｏｆｔｈｅｓｅｖｅｒｔｉｃｅｓ

；ｂｅｓｉｄｅｓ，ａｓｔｈｅｐｒｏｐｏｓｅｄｍｅｔｈｏｄｔｏｋｅｔｈｅｆｉｔｎｅｓｓｖａｌｕｅｓｏｆａｌｌｔｈｅｖｅｒｔｉｃｅｓｉｎｔｏｃｏｎｓｉｄｅｒａｔｉｏｎｗｈｅｎ

ｔｒｉｅｄｔｏｃａｌｃｕｌａｔｅｔｈｅｔｈｒｅｓｈｏｌｄ，ｉｔｎｅｅｄｅｄｔｏｓｅｌｅｃｔｌｉｍｉｔｅｄｎｕｍｂｅｒｏｆｖｅｒｔｉｃｅｓｉｎｏｒｄｅｒｔｏａｖｏｉｄｔｈｅｉｎｆｌｕｅｎｃｅｏｆｅｘｔｒｅｍｅｌｙｌａｒｇｅ

ｆｉｔｎｅｓｓｖａｌｕｅｓ．Ｓｏｉｆｔｈｅｐｒｏｐｏｓｅｄｍｅｔｈｏｄｓｅｌｅｃｔｅｄｇｒｅａｔａｍｏｕｎｔｏｆｖｅｒｔｉｃｅｓ，ｉｔｗｏｕｌｄｏｎｌｙｋｅｅｐｐａｒｔｏｆｔｈｅｍ．Ａｔｔｈｅｓａｍｅｔｉｍｅ，

ｔｈｅｐｒｏｐｏｓｅｄａｌｇｏｒｉｔｈｍａｌｓｏａｄｏｐｔｅｄａｎｅｗｖｅｒｔｉｃｅｓｆｉｌｔｅｒｉｎｇｍｅｔｈｏｄ．Ｔｈｉｓｍｅｔｈｏｄｃｏｕｌｄｒｅｄｕｃｅｔｈｅｖｏｌｕｍｅｏｆｇｒａｐｈｄａｔａｅｆｆｉ

ｃｉｅｎｔｌｙ．Ｔｈｅｒｅｓｕｌｔｓｓｈｏｗｔｈａｔｐｒｏｐｏｓｅｄａｌｇｏｒｉｔｈｍｔａｋｅｓｓｈｏｒｔｅｒｔｉｍｅｔｈａｎｏｔｈｅｒｐａｒａｌｌｅｌｉｚｅｄａｌｇｏｒｉｔｈｍｓｆｏｒｃｏｍｐａｒｉｓｏｎ．Ｉｔｍｅａｎｓ

ｔｈａｔｔｈｅｐｒｏｐｏｓｅｄａｌｇｏｒｉｔｈｍｒｕｎｓｒｅｌａｔｉｖｅｌｙｆａｓｔｅｒ．

Ｋｅｙｗｏｒｄｓ：ｃｏｍｍｕｎｉｔｙｄｅｔｅｃｔｉｏｎ；Ｓｐａｒｋ；ｐａｒａｌｌｅｌｉｚｅｄａｌｇｏｒｉｔｈｍ；ｇｒａｐｈｃｌｕｓｔｅｒｉｎｇ；ｇｒａｐｈｄａｔａ

０　引言

社区发现算法是图数据挖掘的一个重要组成部分。该类

算法的主要任务是对图数据的顶点进行聚类，通过聚类所有顶

点会被划分到多个不同簇中并且要求簇内顶点之间的连接要

尽可能紧密，而簇间顶点连接要尽量稀疏。

Ｎｅｗｍａｎ等人

［１］

提

出了一种度量社区发现算法聚类效果的方法，该方法已获得了

广泛应用，在其中需要为聚类结果计算一个ｍｏｄｕｌａｒｉｔｙ值，该

值的计算方法为

ｍｏｄｕｌａｒｉｔｙ＝

∑

ｉ

（ｅ

ｉｉ

－ａ

２

ｉ

），ａ

ｉ

＝

∑

ｊ

ｅ

ｉｊ

（１）

其中：ｅ

ｉｉ

表示簇ｉ内边的数量与图当中边总数的比值；ｅ

ｉｊ

表示簇

ｉ和ｊ之间边的数量与图当中边总数的比值；聚类结果的ｍｏｄｕ

ｌａｒｉｔｙ值越大说明算法的聚类效果越好。

社区发现算法被应用于许多领域当中，并且近些年出现了

大量相关的研究工作。ＧＮ算法

［１］

是其中一个非常具有代表

性的算法，该算法需要为每条边计算一个ｂｅｔｗｅｅｎｎｅｓｓ值，之后

基于该值来对图进行划分。目前，已经有许多针对ＧＮ算法进

行改进的算法被提出

［２～４］

；除此之外还有一类算法是通过优化

某个度量值来对图数据中顶点进行聚类的，这些度量值包括簇

系数

［５］

、循环系数

［６］

等。ｍｏｄｕｌａｒｉｔｙ值

［１］

是专门判定社区发现

算法聚类效果好坏的，有些算法是通过对

ｍｏｄｕｌａｒｉｔｙ值进行优

化来获取好的聚类结果的

［７～１０］

。另外，谱的性质也经常被应

用在针对图数据的划分当中

［１１～１３］

，利用该方法可以有效增加

顶点之间的区分度，从而提高社区发现算法的聚类效果。与此

同时采用标签扩散的方法同样可以很好地对图数据的顶点进

行聚类

［１４，１５］

，还有一些社区发现算法是针对特殊图模型的，其

中包括不断变化的动态图模型

［１６］

、稀疏网络

［１７］

、具有方向性

和动态性的图

［１８］

等。重叠社区发现也是一个非常重要的研究

领域，重叠社区发现算法

［１９～２１］

主要是寻找图数据中的一些特

殊顶点，这些顶点可能同时处于两个或多个不同的簇之中，将

所有这样的顶点聚合起来就构成了重叠社区。

目前，已经有许多串行化的社区发现算法被提出，虽然利

用这些算法对图数据进行聚类可以获得很好的结果，但是单机

的运行环境使得这些算法在对大规模图数据进行聚类时面临

第３７卷第８期

２０２０年８月　

计算机应用研究

ＡｐｐｌｉｃａｔｉｏｎＲｅｓｅａｒｃｈｏｆＣｏｍｐｕｔｅｒｓ

Ｖｏｌ３７Ｎｏ８

Ａｕｇ．２０２０

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_38625464

粉丝: 5
资源: 937

Spark驱动的并行社区发现优化算法

基于标签传播的语义重叠社区发现算法

Louvain快速社区发现算法（Fast unfolding算法）

基于Spark的并行遗传算法研究

基于Spark并行的密度峰值聚类算法

基于Spark的并行遗传算法求解多峰函数极值

基于Spark的并行遗传算法求解多峰函数极值.pdf

基Spark的社区发现算法并行化的研究及应用.docx

SCoS_基于Spark的并行谱聚类算法设计与实现_朱光辉1

基于Spark的并行频繁模式挖掘算法

论文研究-基于Spark框架的CNM算法并行研究 .pdf

最新资源