频繁子图挖掘算法研究进展与未来趋势

需积分: 9 156 浏览量更新于2024-08-11 收藏 485KB PDF 举报

"这篇文章是关于频繁子图挖掘算法的研究综述，由王艳辉、吴斌和王柏在2005年发表于《计算机科学》杂志上。它探讨了基于图的频繁子图挖掘算法的现状，提出了分类方法，并对经典算法进行了分析和评估。文章还总结了频繁子图挖掘的一般流程及其实现技术，并预测了该领域的未来发展方向。关键词包括关联规则、标记图、规范编码和子图同构。" 在数据挖掘领域，频繁子图挖掘是一项重要的任务，它涉及到从图结构数据中寻找频繁出现的子结构模式。这些模式可以揭示数据之间的隐藏关联，对于网络分析、生物信息学、社交网络研究等多个领域都有深远意义。关联规则挖掘起源于商品销售数据，用于发现商品之间的购买关联，而频繁子图挖掘则是这一概念在图数据上的扩展。图数据可以代表复杂的实体关系，如社交网络中的用户连接、生物学中的蛋白质相互作用网络等。挖掘频繁子图有助于识别模式，如社区结构、模式传播路径等。文章提出的分类方法可能包括基于搜索策略、剪枝技术、编码表示等方面的划分。例如，搜索策略可能包括自底向上或自顶向下的递归方法，剪枝技术则用于减少计算复杂性，如使用支持度阈值来提前终止无效的搜索分支。编码表示如Canonical code用于压缩子图表示，减少存储需求，同时便于比较不同子图。经典的频繁子图挖掘算法，如GSpan、Frequent Subgraph Enumeration (FSE)和gSpan，通过迭代和优化过程来找到满足最小支持度的子图。gSpan算法特别值得一提，它利用子图的后缀关系进行排序，有效地减少了重复计算。文章可能详细阐述了这些算法的工作原理，包括如何生成候选子图、如何计算支持度以及如何利用图的标记信息进行优化。此外，子图同构的概念在这里至关重要，它是判断两个子图是否等价的关键，通常需要高效的同构测试算法。展望未来，频繁子图挖掘的研究方向可能包括算法效率的提高、并行和分布式计算的应用、处理大规模动态图的能力增强，以及将挖掘结果解释和应用到具体问题中。随着大数据时代的到来，如何在保持算法效率的同时，处理更复杂、更大规模的图数据，成为了研究人员面临的挑战。这篇综述提供了对频繁子图挖掘算法的全面理解，对于了解该领域的最新进展和未来趋势具有很高的参考价值。

计算机科学

2005Vo

32NQ.

频繁子图挖掘算法综述美)

王艳辉吴斌王柏

(北京邮电大学计算机科学与技术学院通信软件工程中心

北京

100876)

摘

要

本文介绍了基于图的频繁子图挖掘算法的研究情况，提出频繁子图挖掘算法的分类方法，对一些经典的算法

进行了分析和评价，归纳出频繁子图挖掘的一般步骤以及实现这些步骤的方法，展望了频繁子图挖掘的未来研究方

向。

关键词

关联规则，标记图，Ca

nonical

code

，子图同构

Survey

Frequent

Subgraph

Mining

且也

Hui

Bin WANG

(Telecommunications

ftware Engineering Group •

School

mputer

ience

and

Technology.

ijing

University

。

( ts

and

Telecommunications.

ijing

100876)

Abstract

This

paper provides a survey of

the

study

in frequent subgraph rnining. brings forward a classification of

fre

咛

quent subgraph mining, reviews and analyses some typical algorithms, conclude the general steps on finding frequent

subgraphs in

graph

database and the methods which can be applied to the corresponding

steps

, views some future direc

tions in frequent subgraph mining.

Keywords Association rule

,La

beled graph,Canonical code,Subgraph isomorphism

引言

关联规则算法首先是由

Agrawal

等人于

1993

年提出的，

是基于客户交易数据库，用来解决项集之间关联问题的，后来

诸多研究人员对关联规则的挖掘问题进行了大量研究，除了

应用于非结构型数据(

non-structure)

以外，还研究和提出了

许多应用于半结构型(

semi-structure)

数据和结构型

(struc

ture)

数据的算法。

图形数据广泛存在于我们的生活中，如化学、生物、国防

等领域都大量使用到了图形数据，因此，对基于图的频繁子图

挖掘算法的研究是非常必要的。基于图的数据挖掘提出时间

并不长，但是由于图论作为数学的一个研究领域已经有很长

的研究历史，因而频繁子图挖掘的发展很快，并被广泛地应用

到许多领域中，如在化学领域中，通过频繁子图挖掘算法找出

构成有毒物质的分子结构，以及通过对网站浏览日志的挖掘，

分析出最频繁的浏览模式等。

Akihiro

lnokuchi

等人最早将

Apriori

算法思想应用到频

繁子图挖掘中[口，引起了诸多学者对频繁子图挖掘的注意，各

种算法也就应运而生[叫，最近，韩家炜等人提出了将

FP

growth

思想应用到子图挖掘中[1

8.5J

使得频繁子图挖掘算法

得到了迅速发展。后来，许多研究人员，如

Jun

Huan

等人提

出了

FFSM8J

等基于

FP-growth

思想的算法，使得频繁子图

挖掘算法得到了进一步的发展。

频繁子图挖掘算法的基本概念

基本概念和问题描述

有标记图:设

V(G)={

'Vj

，

旬，…

}

，

是图

的顶点集合，

E(G)={eh

=(V;

Vj)

句

，

V(G)}CVXV"

是图

的边的

集合，顶点标记集合

L(V(G))

V;) I

V(G)}

，

边的

标记集合

(G))

{lb(eh)

EE(G)}

，则有标记图可以

表示为

G=(V(G)

E(G)

,L(

V(G))

，

(G)))

。

输入数据库

GD={~

，~，

…

，

}

，

其中

G;=(V(G;)

，

(G;)

L(V(G;))

(G;)))

。

频繁子图挖掘(f

requent

subgraph

ning):

假定输入数

据库

GD={G;

i=O

1，

…，时，给定一个最小支持度阔值

min-sup

，规定:如果子图

与

子图同构，则

o(g

，

G;)=l

，

否则。蚀，

G;)=O

，以

，

GD)=

~_o

怡，

G;)

，如果以

，

D)二三

EGD

rnin-sup

，贝

是一个频繁子图。频繁子图挖掘就是要从输

入数据库中找出所有频繁子图。

2.2

频繁子图挖掘的分类

我们将频繁子图挖掘按照不同情况进行分类:

(1)按照输入数据库的类型进行分类

分为

transaction

和

large

graph

两种类型。

transaction

型挖掘所处理的输入数据

库是由许多图构成的，每个图可能只包含几十到几百个顶点;

而

large

graph

型挖掘所处理的输入数据库有且只有一个大

图，这个大图包含成千上万个顶点。

(2)

按照采用度量的不同进行分类:分为支持度

(sup

por

，支持度置信度，J\.1D

L(minimum

description

length)

。

支持度型挖掘是以子图在输入数据库中出现的次数来作为度

量的，大部分算法都是基于支持度的;J\.1D

型挖掘是以压缩

输入数据库的程度来度量的，一般采用公式

value(s

，

=dl

(g)

/(dl(s)

+dl(g

s))

来计算，其中

是子图，

是输入数据

库

，

dl(g)

表示输入数据库

的存储空间

，

dl(gl

表示把

中

所有出现

的地方都用同一个顶点替换后的图形所需的存储

空间;支持度-置信度型挖掘是以既要满足最小支持度又要满

足最小置信度来衡量的。还有其它一些度量方法，这里就不

再介绍了。

(3)

按照挖掘出的频繁子图的类型进行分类:分为一般子

祷)本课题得到国家自然科学基金

(6040201

1)资助。王艳辉硕士研究生，主要研究数据挖掘与数据仓库。吴斌副教授。王

柏

教授，

博士生导师。

•

193

•

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38650516

粉丝: 11

频繁子图挖掘算法研究进展与未来趋势

Java实现的频繁子图挖掘算法源码解析

一种高效gSpan频繁子图挖掘算法

有向gSpan改进的频繁子图挖掘算法提升效率

频繁子图挖掘算法java数据挖掘算法源码

频繁子图挖掘算法gaston

逐步最右扩展的频繁子图挖掘算法 (2011年)

论文研究-加权最大频繁子图挖掘算法的研究.pdf

FSMBUS ：一种基于 Spark 的大规模频繁子图挖掘算法

IgSpan：优化的频繁子图挖掘算法

FFSM：开源快速频繁子图挖掘算法

最新资源