一次扫描构建的FP-tree快速算法：提升关联规则挖掘效率

需积分: 14 164 浏览量更新于2024-08-12 1 收藏 380KB PDF 举报

本文主要探讨的是"基于FP-tree的快速构建算法"，发表于2011年的计算机应用领域。FP-tree是一种用于频繁模式挖掘的数据结构，特别适用于关联规则分析，其构建效率直接影响到挖掘性能。作者陈治平、谭义红、李学勇和陆安道针对数据库访问频度对关联规则挖掘的影响，提出了一个创新的构建策略。在传统的FP-tree构建过程中，可能需要多次扫描数据库，这无疑增加了计算开销。该快速构建算法的核心在于优化项头表（Item Entry Table, IET）的管理和FP-tree的结构。算法首先动态调整IET中的项目顺序，确保它们与数据库中的数据项出现频率相匹配，这样可以减少不必要的数据访问，提高效率。同时，算法还关注FP-tree中项目节点的排序问题，当FP-tree中的项目顺序与IET不一致时，会实时修正，确保数据结构的一致性。此外，为了进一步减少冗余，算法还引入了非频繁项的剔除机制，只保留频繁项的项节点。这一操作简化了FP-tree的结构，减少了存储空间需求，提升了构建速度。整个构建过程仅需一次数据库扫描，极大地提高了关联规则挖掘的性能。实验部分，作者通过实际测试验证了这个快速构建算法的有效性。结果显示，相比于传统方法，新算法在时间和空间效率上都有显著提升，尤其在大数据集上的表现更为明显。因此，这项工作对于优化大规模数据处理中的关联规则挖掘具有重要的理论和实践价值。基于FP-tree的快速构建算法是一项针对数据库访问频度优化的创新技术，它通过改进数据结构的组织和管理，降低了关联规则挖掘的时间复杂度，为高效的数据挖掘提供了一种实用工具。

第

卷第

期

2011

年

月

计算机应用

No.2

Feb.2011

Joumal of Computer Applications

文章编号

∞

- 9081 (2011

)02

- 0438 - 03

doi:10.

3724/SP.

1087.2011.00438

基于

FP-tree

的快速构建算法

陈治平，谭义红，李学勇，采悉道

(长沙学院信息与计算科学系，长沙

410003

)

(kenny_czp@

yahoo.

com.

cn)

摘

要:数据库的访问频度是影响关联规则挖掘性能的关键因素之一。通过研究

FP-tree

算法，提出了一种基于

FP-tree

的快速构建算法，使

FP-tree

的构建过程仅需一次数据库扫描。该算法通过动态调整项头表中各项的顺序，同

时动态修正

FP-tree

中项的出现顺序与项头表中各项出现顺序不一致的节点。最后，通过对项头表中非频繁项的剔除

与

FP-tree

中对应项节点的清理，完成

FP-tree

的构建过程。实验结采证明了该算法的有效性。

关键词:关联规则;项头表;频繁项

中固分类号

:Tn91

文献标志码

Fast

construction algorithm based on FP-tree

CHEN

Zhi-ping

TAN

Yi-hong

Xue-yong

LUAN

Xi-dao

(Department

Information

and

Computing Science,

Changsh

University

，

Changsha Hunan

410003

, China)

Abslracl:

Access frequency of database is one of the key factors

affecf association rule mining performance. With the

analysis of FP-tree

, a fast construction algorithm based on FP-tree was proposed in this paper

scan database only one time.

dynamically adjusted not only the order of items in

em Entry Table

(IET)

, but also the order of nodes in FP-tree whose

order was not consistent with the order of nodes in IET. Finally

, it removed the un-frequent items in the IET with related nodes

in FP-tree

, and completed the construction of FP-tree. The experimental results validate the efficiency of the new algorithm.

Key

words:

association rule; Item Entry Table

(IET);

frequent item

引言

关联规则是由

Agrawal

等人[

提出的一个主要的数据库

中的知识发现

(Knowledge

Discovery in Databases ,

KDD)

研究

课题，它反映了大量数据中项集之间内在有趣的关联或相关

联系，从而指导人们进行相应的决策。而啤酒与尿布等成功

的应用研究使得关联规则的研究成为目前数据挖掘的热点。

∞

年

Han

等人

[2J

提出了

FP-tree

的算法，由于该算法对数

据库的访问只需要两次就可得到相应的

FP-tree

，通过对

FP

tree

的分析可以得到所需要的频繁项目集，同时算法在实现

过程中不需要产生大量的候选集，因此，对于

FP-tree

算法的

研究与性能提高受到广大研究者的青睐

叫。在对

FP-tree

的研究中众多研究者

-8J

的研究重点基于已构建的与数据库

扫描无关的

FP-tree

结构上进行频繁模式挖掘方面的分析与

改善，这些研究仅在内存中进行。但是由于

FP-tree

的构建过

程中受支持度的影响，使得不同支持度的设定都需要重建

FP-tree

，同时数据集的动态扩充也导致

FP-tree

的内容变化。

因此，如何提高

FP-tree

的构建效率，以尽可能降低慢速设备

以及大数据量对算法整体性能的影响也已受到关注。文献

[9]

提出了一种在动态数据库中递增构建

FP-tree

的方法，通

过设定支持数为

，获取所有项的频度分布情况。利用文献

[2]

的方法建立基于当前数据库的

FP-tree

，对于后续的新数

据集，根据最近得到的频繁项分布情况重新排列项头表(

Entry Table

, IET)

，并调整

FP-tree

结构，使得后续的

FP-tree

收稿日期

:2010-07-20;

修回日期

:2010-09-190

的构建不再扫描原始的数据库，从而将重建

FP-tree

的数据库

扫描开销降低。为了提高

FP-tree

的构建效率，文献[

10]

基于

分布式环境下研究并行的构建算法，单个处理机负责局部数

据集的项频度统计，通过处理机之间的数据通信得到全局项

频度，在此基础上构建局部

FP-tree

，进而得到

全局的

FP-tree

。

但这些方法仍然基于文献

[2]

的方法进行，因此文献

[2]

的构

建算法中存在的缺陷依然存在。

为了进一步降低数据库扫描所带来的效率问题，本文提

出了一种基于

FP-tree

的快速构建算法。在对数据库进行一

次扫描的过程中动态调整项头表中各项的顺序，根据项头表

的变化情况动态修正

FP-tree

中项节点的顺序，使

项频繁项

集与

FP-tree

的构建过程同时进行，从而使得对数据库的扫描

次数降为

次的操作，达到减少数据库扫描的次数。最后，通

过对项头表中非频繁项的剔除与

FP-tree

中相关节点的清理，

完成

FP-tree

的构建过程。算法的实验结果表明在数据集较

大的情况下相比原有的

FP-tree

的构建算法节省了

20%

左右

的时间开销，从而证明了本算法的有效性。

FP-Tree

构建算法原理

FP-tree

算法在应用过程中与数据库访问相关的部分在

于

FP-tree

的构建过程。具体的构建过程如下。

)扫描事务数据库一次，按照支持度降序排列形成

频

繁项头表。

创建

的根节点，以

"root"

进行标记。第二次扫描数

基金项目:湖南省教育厅科研项目(1

0C0409;

B007

)

;长沙市科技计划项目

(K0902210-11

)。

作者简介:陈治平

(1971

斗，男，湖南安化人，副教授，博士，主要研究方向:数据挖掘、多媒体处理;

谭义红(1

971

- )

，男，湖南株洲人，副

教授，博士研究生，主要研究方向:数据挖掘;

李学勇(1

970

- )

，男，湖南邵阳人，副教授，搏士研究生，主要研究方向:数据挖掘;

奕悉道

976

- )

，男，山东即墨人，博士，主要研究方向:多媒体处理、数据挖掘。

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38560107

粉丝: 1

一次扫描构建的FP-tree快速算法：提升关联规则挖掘效率

FPTREE 构造以及挖掘算法

Apriori和FP-Tree算法图形化实现+两个测试数据

fpGrowth算法

基于FP-tree目录分割自适应算法 (2011年)

FP-Tree.zip_ fp tree_fp tree_fp-growth_fp-growth算法的源代码_fp-tree

fp_tree.rar_ fp tree_FP Tree算法_FP-tree的C++_fp-tree_tree c语言

基于FP-tree频集模式的FP-Growth算法对关联规则挖掘的影响 (2003年)

基于FP-tree算法的推荐系统设计与实现

基于哈希表与线性表建立FP-Tree的改进算法

FP-EMFIA：改进的基于FP-Tree的高效挖掘最大频繁项目集算法

最新资源