
第
31
卷第
2
期
2011
年
2
月
计算机应用
Vo
l.
31
No.2
Feb.2011
Joumal of Computer Applications
文章编号
:1
∞
1
- 9081 (2011
)02
- 0438 - 03
doi:10.
3724/SP.
J.
1087.2011.00438
基于
FP-tree
的快速构建算法
陈治平,谭义红,李学勇,采悉道
(长沙学院信息与计算科学系,长沙
410003
)
(kenny_czp@
yahoo.
com.
cn)
摘
要:数据库的访问频度是影响关联规则挖掘性能的关键因素之一。通过研究
FP-tree
算法,提出了一种基于
FP-tree
的快速构建算法,使
FP-tree
的构建过程仅需一次数据库扫描。该算法通过动态调整项头表中各项的顺序,同
时动态修正
FP-tree
中项的出现顺序与项头表中各项出现顺序不一致的节点。最后,通过对项头表中非频繁项的剔除
与
FP-tree
中对应项节点的清理,完成
FP-tree
的构建过程。实验结采证明了该算法的有效性。
关键词:关联规则;项头表;频繁项
中固分类号
:Tn91
文献标志码
:A
Fast
construction algorithm based on FP-tree
CHEN
Zhi-ping
,
TAN
Yi-hong
,
11
Xue-yong
,
LUAN
Xi-dao
(Department
of
Information
and
Computing Science,
Changsh
α
University
,
Changsha Hunan
410003
, China)
Abslracl:
Access frequency of database is one of the key factors
to
affecf association rule mining performance. With the
analysis of FP-tree
, a fast construction algorithm based on FP-tree was proposed in this paper
to
scan database only one time.
It
dynamically adjusted not only the order of items in
It
em Entry Table
(IET)
, but also the order of nodes in FP-tree whose
order was not consistent with the order of nodes in IET. Finally
, it removed the un-frequent items in the IET with related nodes
in FP-tree
, and completed the construction of FP-tree. The experimental results validate the efficiency of the new algorithm.
Key
words:
association rule; Item Entry Table
(IET);
frequent item
0
引言
关联规则是由
Agrawal
等人[
1
J
提出的一个主要的数据库
中的知识发现
(Knowledge
Discovery in Databases ,
KDD)
研究
课题,它反映了大量数据中项集之间内在有趣的关联或相关
联系,从而指导人们进行相应的决策。而啤酒与尿布等成功
的应用研究使得关联规则的研究成为目前数据挖掘的热点。
2
∞
0
年
Han
等人
[2J
提出了
FP-tree
的算法,由于该算法对数
据库的访问只需要两次就可得到相应的
FP-tree
,通过对
FP
tree
的分析可以得到所需要的频繁项目集,同时算法在实现
过程中不需要产生大量的候选集,因此,对于
FP-tree
算法的
研究与性能提高受到广大研究者的青睐
[3
叫。在对
FP-tree
的研究中众多研究者
[3
-8J
的研究重点基于已构建的与数据库
扫描无关的
FP-tree
结构上进行频繁模式挖掘方面的分析与
改善,这些研究仅在内存中进行。但是由于
FP-tree
的构建过
程中受支持度的影响,使得不同支持度的设定都需要重建
FP-tree
,同时数据集的动态扩充也导致
FP-tree
的内容变化。
因此,如何提高
FP-tree
的构建效率,以尽可能降低慢速设备
以及大数据量对算法整体性能的影响也已受到关注。文献
[9]
提出了一种在动态数据库中递增构建
FP-tree
的方法,通
过设定支持数为
1
,获取所有项的频度分布情况。利用文献
[2]
的方法建立基于当前数据库的
FP-tree
,对于后续的新数
据集,根据最近得到的频繁项分布情况重新排列项头表(
It
em
Entry Table
, IET)
,并调整
FP-tree
结构,使得后续的
FP-tree
收稿日期
:2010-07-20;
修回日期
:2010-09-190
的构建不再扫描原始的数据库,从而将重建
FP-tree
的数据库
扫描开销降低。为了提高
FP-tree
的构建效率,文献[
10]
基于
分布式环境下研究并行的构建算法,单个处理机负责局部数
据集的项频度统计,通过处理机之间的数据通信得到全局项
频度,在此基础上构建局部
FP-tree
,进而得到
l
全局的
FP-tree
。
但这些方法仍然基于文献
[2]
的方法进行,因此文献
[2]
的构
建算法中存在的缺陷依然存在。
为了进一步降低数据库扫描所带来的效率问题,本文提
出了一种基于
FP-tree
的快速构建算法。在对数据库进行一
次扫描的过程中动态调整项头表中各项的顺序,根据项头表
的变化情况动态修正
FP-tree
中项节点的顺序,使
1-
项频繁项
集与
FP-tree
的构建过程同时进行,从而使得对数据库的扫描
次数降为
1
次的操作,达到减少数据库扫描的次数。最后,通
过对项头表中非频繁项的剔除与
FP-tree
中相关节点的清理,
完成
FP-tree
的构建过程。算法的实验结果表明在数据集较
大的情况下相比原有的
FP-tree
的构建算法节省了
20%
左右
的时间开销,从而证明了本算法的有效性。
1
FP-Tree
构建算法原理
FP-tree
算法在应用过程中与数据库访问相关的部分在
于
FP-tree
的构建过程。具体的构建过程如下。
1
)扫描事务数据库一次,按照支持度降序排列形成
1-
频
繁项头表。
2)
创建
T
的根节点,以
"root"
进行标记。第二次扫描数
基金项目:湖南省教育厅科研项目(1
0C0409;
07
B007
)
;长沙市科技计划项目
(K0902210-11
)。
作者简介:陈治平
(1971
斗,男,湖南安化人,副教授,博士,主要研究方向:数据挖掘、多媒体处理;
谭义红(1
971
- )
,男,湖南株洲人,副
教授,博士研究生,主要研究方向:数据挖掘;
李学勇(1
970
- )
,男,湖南邵阳人,副教授,搏士研究生,主要研究方向:数据挖掘;
奕悉道
(1
976
- )
,男,山东即墨人,博士,主要研究方向:多媒体处理、数据挖掘。