http://www.paper.edu.cn
- 1 -
中国科技论文在线
一种有效的并行频繁子图挖掘算法
#
陈晓云,赵娟,邢乔金,陈鹏飞,刘国华
**
基金项目:甘肃省科技支撑项目(2009GS00858);广东省教育部产学研项目(00367851220327032)
作者简介:陈晓云,(1956-),女,教授,数据仓库与挖掘
通信联系人:赵娟,(1985-),女,硕士研究生,视频处理与应用. E-mail: zj855810@163.com
(兰州大学信息科学与工程学院,兰州 730000)
摘要:本文在分析并行频繁项集挖掘算法的基础上,提出了一种有效的并行频繁子图挖掘算
法,该并行算法采用主从节点处理模式,将主节点处理后生成的频繁子树集放到从节点上并
行的生成频繁子图。通过实验验证了算法的可行性和有效性。
关键词:并行化;频繁项集;频繁子图
中图分类号:TP301.6
An efficient parallel frequent subgraph mining algorithm
Chen Xiaoyun, Zhao Juan, Xing Qiaojin, Chen Pengfei, Liu Guohua
(School of Information Science & Engineering ,Lanzhou University, LanZhou 730000)
Abstract: Based on the analysis of the parallel frequent itemset mining algorithm, a kind of effective
parallel algorithm for mining frequent subgraph is introduced in this paper. The parallel algorithm
adopts a master-slave node processing mode that the frequent subtree sets generated by the master node
are put into the frequent subgraph generated by the slave node in parallel.The results of the experiments
show that our algorithm has good effectiveness and feasibility.
Keywords:parallel; frequent itemset; frequent subgraph
0 引言
频繁子图挖掘与其他比较成熟的频繁模式挖掘相比,图结构数据所包含的信息比一般的
数据类型的数据量更大,其数据结构比线性表和树更为复杂。在图形结构中,结点之间的关
系是任意的,任意两个数据元素之间都可能相关。尽管其结构很复杂,但是由于基于图的应
用越来越广泛,其已经渗入到诸如语言学、逻辑学、物理、化学、计算机科学及数学的这些
分支学科中。如通过对已有的生物分子结构与未知的生物结构的研究,来确定未知生物分子
与已知生物分子之间的联系与区别。例如在 PTE(predictive toxicology evaluation
challenge)项目中找到频繁出现的而且与已有的有毒物质具有相同子结构的物质,这样就可
以发现新的对人体有害的物质。因此,对基于图的频繁子图挖掘的算法研究是非常必要的,
而且具有很好的实际应用价值。
在通常情况下,由于没有任何先验知识做参考,频繁子图的挖掘工作量会很大。对于海
量数据的挖掘任务来讲,现有的频繁子图挖掘算法速度比较慢,而且效率不高,因此没有得
到广泛的应用。所以研究出一个算法效率高,执行速度快的频繁子图挖掘算法是目前一个非
常热门的话题。
本文在分析以往的并行频繁项集挖掘算法的基础上,提出了一种并行频繁子图发掘算法
PG-Miner。该挖掘算法采用主从模式,将整个过程分为两部分,第一部分由主处理节点来生
成频繁子树集,然后将生成的子树集分发到其他从处理节点。第二部分将频繁子图边扩展及
同构判断这部分频繁子图挖掘算法中时间复杂度最高的部分并行处理。文章在最后通过实验
验证了本算法的有效性和可行性。