MapReduce框架下的大规模图挖掘并行计算模型

需积分: 10 48 浏览量更新于2024-08-11 收藏 347KB PDF 举报

"这篇论文探讨了基于MapReduce的大规模图挖掘并行计算模型，旨在解决随着网络规模和复杂性增长带来的分析难题。论文提出了一种新的计算方法，应用于3-clique计算，以实现对大规模图的高效挖掘。该模型通过获取节点的1跳和2跳信息，最终确定所有基于该节点的3-clique，可用于计算聚集系数，并在电话网络挖掘中应用。实验结果显示，该模型具有良好的可扩展性和性能。" 正文：在信息技术领域，随着互联网的飞速发展，大规模网络的数据量和复杂性急剧增加，这为网络结构和特性的分析研究带来了巨大的挑战。2012年的这篇论文聚焦于这一问题，提出了一个利用MapReduce框架进行并行计算的新模型，专门针对大规模图的3-clique计算。 MapReduce是一种由Google提出的分布式计算模型，它将复杂的计算任务分解成可并行执行的小任务，然后在大量的廉价硬件上并行处理，从而极大地提高了数据处理效率。开源实现Hadoop是MapReduce的一个重要实现，它使得在大规模数据集上的并行计算变得更为便捷。论文中提到的计算模型分为三个主要步骤：首先，获取图中每个节点的“1跳”信息，即与其直接相连的邻居节点；接着，获取“2跳”信息，即节点的邻居的邻居；最后，通过对这些信息的处理，找出所有包含三个节点的完全连接子图，也就是3-clique。3-clique是图论中的一个概念，它表示图中任意三个节点两两之间都存在边的子图，这个概念在社交网络分析、社区检测和模式识别等领域有着广泛应用。该模型不仅能够用于发现网络中的紧密连接群体，还可以计算图的聚集系数，这是一个衡量网络中节点之间连接程度的指标。此外，论文指出，此模型特别适用于电话网络的挖掘，可以揭示用户之间的通信模式和潜在的社会关系。实验结果证明，基于MapReduce的并行计算模型在处理大规模图数据时表现出良好的性能和可扩展性。这意味着随着硬件资源的增加，模型的处理能力可以线性提升，这对于应对不断增长的数据量至关重要。这篇论文提出的计算模型为大规模图挖掘提供了一个有效的方法，通过MapReduce的并行计算能力，解决了大数据时代网络分析的难题。它不仅有助于深入理解网络结构，还为实际应用如电信网络分析提供了强大的工具。随着云计算和大数据技术的不断发展，这样的并行计算模型在未来的图挖掘领域将继续发挥关键作用。

第 39 卷第 3 期应用科技 Vol.39, No.3

2012 年 6 月 Applied Science and Technology Jun. 2012

doi:10.3969/j.issn.1009-671X.201112024

基于 MapReduce 的大规模图挖掘并行计算模型

饶君, 张仁波, 东昱晓, 吴斌

北京邮电大学计算机科学与技术学院，北京 100876

摘要：在如何快速发现大规模网络的结构和特性问题中，网络规模及复杂度的快速增长给其分析研究带来了新的挑战.

MapReduce 及其开源实现 Hadoop 给大规模图的高效处理带来了希望. 基于 MapReduce 框架的集群系统，提出了 1 种新

的计算模型用于大规模图形的 3-clique 计算，来实现图挖掘. 计算的基本步骤是：首先获取每个节点的第 1 跳信息，然

后是第 2 跳信息，最后得到所有基于该节点的 3-clique. 该计算模型可以用来计算聚集系数，并且可以用于三大通话网

络的挖掘. 实验结果证明这种计算模型具有良好的可扩展性和性能.

关键词：图挖掘；社会网络分析；MapReduce；聚集系数；3-clique

中图分类号：TP311 文献标志码：A 文章编号：1009-671X（2012）03-0056-05

A parallel computing model for large-graph mining with MapReduce

RAO Jun, ZHANG Renbo, DONG Yuxiao, WU Bin

School of Computer Science, Beijing University of Posts and Telecommunication, Beijing 100876, China

Abstract: Large-scale graphs exist everywhere. The continued exponential growth in both the size and complexity of the

graphs is posing a new challenge for finding the structures and characters of a large-scale graph. An excellent promising clue

for dealing with graphs with great sizes is the emerging MapReduce framework and its open-source implementation, Hadoop.

The problem of 3-clique enumeration of a graph is an important operation that can help structure mining and a difficult

mission for graphs with great sizes on the single computer. In this paper, we propose a parallel computing model for 3-clique

enumeration based on cluster system with the help of MapReduce for large-scale graphs. The process of enumeration is firstly

to extract one-leap information of the graph, then the two-leap information and finally, the key-based 3-clique enumeration.

Also, we apply the computing model to the computation of clustering coefficient. The computing model is applied to three

real-world large CALL graphs and the results of the experiments manifest the good scalability and efficiency of the model.

Keywords: graph mining; social network analysis; MapReduce; clustering coefficient; 3-clique

网络无处不在，对于网络的分析，如万维网、社

会网络、计算机网络和生物学网络，尤其是大规模网

络的分析，越来越受到人们的重视

[1]

. 传统的社会网络

分析基于单机系统，受内存和程序执行时间的限制，

数据集规模较小

[2]

. 现在急需一种高性能分布式的系

统能够对大规模网络进行分析计算. Google 文件系统

（GFS）

[3]

和 MapReduce

[4]

就是这种已经被证明了的利

用大型集群并行处理大量数据的系统. 网络结构的挖

掘是社会网络分析中非常重要一块儿.

而在这一部分

中，列举网络中所有的 3-clique 已经引起人们越来越

多的关注，并且取得部分成果. Buriol

[5]

等人采用近似

收稿日期：2011-12-25.

基金项目：国家自然科学基金资助项目（60905025, 90924029, 61074128）

作者简介：饶君（1989-），男，硕士研究生，主要研究方向：数据挖掘

与复杂网络, E-mail：raojun_06@126.com.

算法来计算 3-clique 的个数. Chu 和 Cheng

[6]

利用磁盘

外存给出了一个高效的列举 3-clique 的算法.

在文中通过计算 3-clique 来计算大规模图的聚集

系数. 聚集系数是图的最重要参数之一. 此外该计算

模型还可用于寻找图中的极大团. 由于在现实网络

中，随着规模的增大，复杂性成指数增长，计算大型

图的聚集系数是一项极具挑战性的任务

[7]

基于以上问题，首先提出了一个并行计算模型，

该模型利用 Hadoop 找到网络中的 3-cliques. Hadoop

[8]

是并行计算模型 MapReduce 的一种开源实现，对于程

序员来说高效方便. 然后通过这个计算模型，可以用

一种高效、可扩展的方式计算聚集系数. 最后文中使

用了有数百万条边的网络来检验该并行算法.

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38680671

粉丝: 4
资源: 960

MapReduce框架下的大规模图挖掘并行计算模型

基于Hadoop的大数据处理关键技术综述.pptx

基于STM32单片机的激光雕刻机控制系统设计-含详细步骤和代码

白色简洁风格的前端网站模板下载.zip

HarmonyException如何解决.md

sdfsdfdsfsdfs222

(177373454)html+css+js学习代码.zip

usbgps2.apk

白色简洁风格的家居建材网站模板下载.zip

EventEmitError解决办法.md

白色简洁风格的工艺品展览企业网站源码下载.zip

最新资源