MFP算法：一种高效的布尔型关联规则挖掘方法

需积分: 13 167 浏览量更新于2024-08-11 收藏 352KB PDF 举报

"布尔型关联规则挖掘算法研究 (2006年)" 布尔型关联规则挖掘是数据挖掘领域的一个重要组成部分，主要关注于发现数据库中项集之间的有趣关系，这些关系通常表现为“如果A发生，那么B也会发生”的形式。在这个2006年的研究中，作者高健和何守才在深入分析了FP_growth算法的基础上，提出了一个新的关联规则挖掘算法——MFP（可能是Modified FP_growth的缩写）。 FP_growth算法是一种基于树结构的关联规则挖掘方法，它首先构建一个频繁项集树（FP树），然后通过递归地分割这个树来生成所有的频繁项集。FP_tree的核心优势在于可以高效地处理大量数据，尤其是在处理大型事务数据库时，减少了对原始数据的多次扫描，从而提高了效率。然而，即便如此，FP_growth算法仍然需要至少两次扫描事务数据库：一次用于构建FP树，另一次用于生成规则。 MFP算法在此基础上进行了改进，通过一次扫描事务数据库就能将数据转换成MFP树。这一改进减少了对数据库的访问次数，进一步提升了挖掘过程的时间效率。MFP树可能在结构或处理方式上有所优化，以适应更快速的转换和挖掘过程。由于具体细节没有给出，我们只能推测MFP算法通过更高效的树构建策略或合并步骤，使得频繁项集的发现和规则生成更为迅速。关联规则挖掘的关键在于找到满足最小支持度和最小置信度阈值的项集。支持度衡量了项集在所有交易中出现的频率，而置信度则表示在包含项集A的情况下，同时包含项B的概率。MFP算法可能采用了特定的策略来快速计算这些度量，以满足用户定义的阈值。在实际应用中，布尔型关联规则挖掘广泛应用于市场篮子分析、用户行为预测、网络入侵检测等领域。通过发现隐藏的关联规则，企业可以制定更有效的营销策略，网络安全专家能识别潜在的攻击模式，从而提高系统的安全性。总结来说，这篇论文的研究重点是提高关联规则挖掘的效率，特别是针对FP_growth算法的优化。MFP算法通过减少对事务数据库的扫描次数，实现了更快的挖掘速度，对于大数据量的分析具有显著的优势。尽管具体的算法实现细节没有详细描述，但这项工作展示了在数据挖掘领域中，通过创新算法设计提升性能的可能性。

第

卷第

期

Vol

.NiJ

计算机工程

Computer Engineering

2006

年

月

January

2006

·软件技术与数据库·

文章编号

100

←

-3428(2006)01

-0

6-0

文献标识码

中图分类号

TP311

布尔型关联规则挖掘算法研究

高健何守才

(1.上海应用技术学院计算机系，上海

200233; 2

上海第三工业大学计算机系，上海

200025)

摘要:在分析

FP~rowth

关联规则挖掘算法的基础上，提出了一种

MFP

的算法，给出了算法的工作原理。

MFP

算法能在一次扫描事务

数据库过程中，把该数据库转换成

MFP

树，然后对

MFP

树进行关联规则挖掘。

MFP

算法比

FP~rowth

算法减少一次对事务数据的扫描，

因此具有较高的时间效率。

关键词:关联规则挖掘

FP~rowth

算法

MFP

算法

A Fast Association Rule Mining AIgorithm

GAO

Jun

Shoucai

(1.

Dep

of Computer Science, Shanghai Institute of

巳

chnology

，

Shanghai 200233;

Dep

of Computer Science, Shanghai Second Industrial

Univ.

, Shanghai 200025)

(Abstract

J Based on fully

analyzing

耻

~rowth

，

association ru

mining algorithrn, this paper presents a new association rule mining

gorithm called

MFP.

币

MFP algorithm can convert a transaction database into a MFP tree through scanning the database only once, and then do

the mining of the tree.

Because

出

MFP algorithm scans a transaction database

巳

time

less

也

the FP

~rowth

gori

出

，也巳

MFP

algorithm is

moree

旺

icient

with time.

(Key

words J Association rule mining; FP

~rowth

algori

出口;

MFP algorithm

概述

目前，挖掘频繁模式的经典算法是

Apriori

算法和

FP_growth

算法

[3]

_growth

算法是用于从事务数据库中

挖掘布尔型关联规则的频繁模式

[5]

。它的整个挖掘过程比较

复杂，但是可以筒单地划分成

个基本步骤

[6].

首先是扫描

事务数据库，根据给出的

min_sup

(最小支持度阔但)建立

表;然后第二次扫描事务数据库，依据

表，构建

FP-tree;

最后对构建的

FP-tree

进行挖掘，找出所有频繁模式。有了频

繁模式就可以根据行业背景方便地建立所需的关联规则

[7]

。

下面是

_growth

算法进行关联规则挖掘的一个例子。被挖

掘的事务数据库如图

所示

[8]

并设定

min_sup=2o

图

中的

Tid

列为事务记录的标号，

item_ID's

列为事务所涉及

到的

巳

。

表

中的事务数据库的首记录是标号为

TOOl

的

事务，该事务涉及到的出

为I1，

。

表

事务数据库

TID

item

TOOl

T002

T003

T004

T005

T006

T007

T008

, I3,

T009

首先

FP_growth

算法第一次扫描图

的事务数据库，得

到每个

item

的支持度记数值(每个

item

在事务数据库中出现

的次数)。扫描结果为I1

，

12:7, 13:6, 14:2,

15:2

。冒号左侧

为

item

标号，冒号右侧是该

ltem

的支持度记数值。从扫描结

果中删除支持度记数值小于

mm_sup

的

item

，并按

item

支持

一

116

一

度记数值递减的顺序排列各

ltem

，将结果记录在

表中，

L=[

12:7,

，

13:6

，

14:2

，

15:2]

。

第二阶段，

_growth

算法开始构建

FP-tree

。它先创建

标号为

null

的

FP-tree

根结点，然后再次扫描事务数据库，依

次读入每个事务记录。若一事务中的所有

item

都出现在

表

中，则按在

表中的顺序重新排列它们，并在

FP-tree

中建立

对应的分支。图

事务数据库的第一条记录为

T001

，因为它

的

个

item

均出现在

表中，所以按

表的顺序重新排列为:

，并在

FP-tree

中构建→个以

12:1

，

15:1

为标号

的

结点分支，

被连接到根结点，I1被连接到

，

被连

接到

。接着读入第二条事务记录

T002

。同样，

T002

中的

口，

都出现在

表中，按

表的顺序排列为

，

，并

在

FP-tree

中建立对应的分支。由于在

FP-tree

的根结点下已

经存在

12:1

结点，所以只需将

14:

连接到

12:1

结点下，并把

12:1

结点的支持度记数值加上

，使该结点的标号变为

12:2

。

结点

12:2

成为

TOOl

和

T002

的共同前缀。这样，对整个事务

数据库扫描结束后，就构建成了与之对应的

FP-tree

。为了便

于遍历

FP-tree

，创建一个项头表。项头表中的元素和排列顺

序与

表相同，每个元素均带有一指针，指向它在

FP-tree

中对应的结点。最后形成图

所示的

FP-tree

。

第三阶段，

_growth

算法对构建成的

FP-tree

进行挖掘。

对于图

所示的

FP-tree

，从项头表的最后元素

开始，由它

的指针找到

FP-tree

中标号为

的所有结点，它们出现在

个分支上。这

个分支上位于

上面的结点构成了

的

conditional

pattern

base

，用{

2 I1: 1

13: 1)

)表示，

基金项目:上海市高等学校科技发展基金资助项目

(03HK08)

作者简介:高俊(1

955

一)

，男，副教授、硕士，主研方向:数据

挖掘，数据库;何守才，教授

收稿日期

2004-12-06

E-mail: gaojungu@163.com

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38652636

粉丝: 6
资源: 896

MFP算法：一种高效的布尔型关联规则挖掘方法

一种结合布尔矩阵与排序索引的关联规则挖掘算法

十大数据挖掘算法

数据挖掘-评选十大经典算法

2006年ICDM评选：数据挖掘十大经典算法详解

数据挖掘：十大经典算法详解与影响

数据挖掘必知：十大经典算法详解

数据挖掘必知：十大经典算法详解与优缺点

数据挖掘十大经典算法详解：C4.5、K-Means、SVM等

数据挖掘十大经典算法详解：C4.5、k-Means、SVM等

基于Java的家庭理财系统设计与开发-金融管理-家庭财产管理-实用性强

最新资源