改进FP-树在最大项目集挖掘中的应用

数据挖掘,关联规则,最大频繁项目集,频繁模式树

需积分: 3 108 浏览量更新于2024-09-07 收藏 665KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

"基于改进FP-树的最大项目集挖掘算法" 在数据挖掘领域，挖掘最大频繁项目集是一项核心任务，因为它能揭示数据集中重要的关联规则。FP-growth算法因其高效的性能而被广泛使用，但其在寻找最大项目集时，由于需要递归构建条件FP-树，可能导致时间和空间效率低下。针对这一问题，研究者提出了一种基于改进FP-树的快速最大项目集挖掘算法。改进的FP-树是FP-growth算法的一种优化，它的特点是单向结构，每个节点仅保存指向其父节点的指针。这种设计显著减少了存储需求，有助于提高内存效率。通过利用这一特性，新算法能够在不增加过多计算负担的情况下，有效地处理大数据集。算法的关键创新在于引入了项目序列集和相关的操作。在挖掘最大频繁项目集的过程中，不再需要生成含有大量候选项目的集合或者条件FP-树。项目序列集允许更高效地跟踪和管理频繁项，避免了传统方法中递归和回溯导致的时间消耗。通过这些基本操作，算法能够直接找到所有最大频繁项目集，显著提升了挖掘速度。实验分析显示，提出的算法在实际应用中表现出了良好的可行性，能在减少计算时间和占用空间的同时，准确地挖掘出最大频繁项目集。这对于诸如市场篮子分析、异常检测等数据挖掘应用场景具有重要价值。该研究得到了国家自然科学基金和黑龙江省相关科研基金的支持，由谢志强、朱孟杰和杨静三位研究人员共同完成。他们分别在CIMS（计算机集成制造系统）、数据挖掘等领域有深入的研究。文章发表在2009年的《中国计算机科学》期刊上，对于数据挖掘领域的理论研究和技术发展有着积极的推动作用。这个基于改进FP-树的最大项目集挖掘算法通过优化数据结构和操作，实现了对最大频繁项目集的快速高效挖掘，降低了算法的复杂性，提高了整体性能，为实际应用提供了强有力的技术支持。

资源详情

资源推荐

收稿日期 : 2008-05-04; 修回日期 : 2008-07-24 基金项目: 国家自然科学基金资助项目 ( 60673131, 60873019) ; 黑龙江省自然科学基金

资助项目( F200608) ; 黑龙江省教育厅海外学人重点科研基金资助项目( 1152hq08)

作者简介 : 谢志强 ( 1962-) , 男, 湖南新邵人 , 教授 , 博士, 主要研究方向为 CIMS、数据挖掘 ( xzq0111@ tom. com) ; 朱孟杰( 1981- ) , 男 , 硕士研究

生, 主要研究方向为数据挖掘 ; 杨静( 1962- ) , 女 , 教授, 博导 , 博士, 主要研究方向为数据库、数据挖掘 .

基于改进 FP-树的最大项目集挖掘算法

谢志强

, 朱孟杰

, 杨静

( 1. 哈尔滨理工大学计算机科学与技术学院 , 哈尔滨 150080; 2. 哈尔滨工程大学计算机科学与技术学院 ,

哈尔滨 150001)

摘要: 挖掘最大频繁项目集是多种数据挖掘应用中的关键问题。 FP-growth 算法是目前最有效的频繁模式挖

掘算法之一, 其在挖掘最大项目集时要递归生成大量的条件 FP-树, 存在时空效率不高的问题。于是结合改进的

FP-树, 提出了一种快速挖掘最大项目集的算法。该算法利用改进的 FP-树是单向的且每个节点只保留指向父节

点的指针 , 可以节约大量的存储空间; 同时引入项目序列集和它的基本操作 , 使挖掘最大频繁项目集时不生成含

大量候选项目的集合或条件 FP-树, 可以快速地挖掘出所有的最大频繁项目集。实例分析证明所提出的算法是

可行的。

关键词: 数据挖掘; 关联规则 ; 最大频繁项目集; 频繁模式树

中图分类号: TP311 文献标志码: A 文章编号: 1001-3695( 2009) 02-0502-04

Maximumfrequent itemsets mining algorithm based on improved FP-tree

XIE Zhi-qiang

, ZHU Meng-jie

, YANG Jing

( 1. School of Computer Science & Technology, Harbin University of Science & Technology, Harbin 150080, China; 2. School of Computer

Science & Technology, Harbin Engineering University, Harbin 150001, China)

Abstract: Miningmaximumfrequentitemsetsis a keyproblemin manydata mining application. FP-growth algorithm is one of

the most efficientfrequentpattern mining methods. However, FP-growth algorithmmust generate ahuge number of conditional

FP-trees recursively in processes of miningmaximumfrequent, so the efficiency of it unsatisfactory. This paper proposed an ef-

ficient mining maximum frequent algorithm, itunified the improvement FP-tree. The FP-tree was a one-waytree and there is no

pointers to pointits children in each node, so it saved the massive memories space. Byintroducing set of itemsequences and its

operators, the algorithm didn’t generate conditional FP-tree or a large number of candidate sets in mining process, which

could conveniently get all maximum frequent itemsets. The example analysis shows the algorithm is feasibility and effective-

ness.

Key words: data mining; association rule; maximum frequent itemsets; FP-tree

0 引言

关联规则挖掘是数据挖掘中最活跃的研究方法之一, 最早

是由 Agrawal 等人

[ 1]

提出的, 它用于描述事务数据库中各交易

项目之间的关系, 即频繁关系。关联规则挖掘问题可以划分成

两个子问题, 即发现频繁项目集和生成关联规则。发现频繁项

目集是关联规则挖掘和数列模式等数据挖掘应用中的关键技

术和步骤, 因此许多研究都集中在频繁模式挖掘上。Apriori 算

法

[ 2]

是关联规则挖掘的一个经典算法, 在数据挖掘中具有里

程碑的作用, 许多早期的研究大多采用类似于 Apriori 的先产

生候选集后进行测试的方法。但是随着研究的深入, 它的缺点

也暴露出来, 即需要多次扫描数据库, 并且需要很大的 I/O 负

载, 可能产生庞大的候选集。

Han 等人

[ 3]

提出了一种利用频繁模式树 ( FP-tree) 进行频

繁模式挖掘的 FP-growth 算法。该算法采用 FP-树存放数据库

的主要信息, 算法只需要扫描数据库两次, 使关键信息以 FP-

树的形式存放在内存中, 避免了因多次扫描数据库而带来的大

量的 I/O 负载; 它不需要产生候选集, 从而减少了产生和测试

候选集需要耗费的大量时间, 并且采用分而治之的思想, 在挖

掘过程中大大缩小了搜索空间。实验表明 FP-growth 算法的性

能比 Apriori 算法快了一个数量级。虽然频繁模式算法对于一

些非稠密数据库能够取得很好的性能, 但对于稠密数据库或者

支持度较小时, 频繁模式的数量会以指数形式增长, 使得找出

所有的频繁模式成为不可能的任务。为了减少频繁模式中的

冗余, 人们采用了各种方法, 其中最主要的有挖掘频繁闭项目

集

[ 4]

( frequent closed itemset, FCI) 和最大频繁项目集 ( MFI) 。

其中 MFI 的规模最小, 而且通过最大频繁项目集可以导出频

繁闭项目集和频繁项目集, 所以可以把发现频繁项目集的问题

转换为发现最大频繁项目集的问题。另外某些数据挖掘的应

用中仅需发现最大频繁项目集, 而不必发现频繁项目集, 因而

发现最大频繁项目集对数据挖掘具有重大的意义。

目前可用的最大频繁项目挖掘算法有 Max-Miner

[ 5]

、Pin-

cer-Search

[ 6]

、DMFI

[ 7]

、DMFIA

[ 8]

及 IDMFIA

[ 9]

等算法。Max-

Miner采用了广度优先的搜索方法, 另外还采用了超集剪枝策

第 26 卷第 2 期

2009 年 2 月

计算机应用研究

Application Research of Computers

Vol. 26 No. 2

Feb. 2009

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_39841856

粉丝: 491
资源: 1万+

改进FP-树在最大项目集挖掘中的应用

FP-Growth算法是如何改进Apriori算法的

FP-tree算法和FP-growth算法是同一个么

fp-growth算法改进

5.FP-Growth算法是如何改进Apriori算法的？FP-Growth算法的实现步骤是什么？

算法Apriori及无侯选集发现算法FP-Growth算法的不同

基于Apriori算法和FP-Growth算法的关联规则挖掘实例

fp-growth算法

逐层发现算法Apriori及无侯选集发现算法FP-Growth算法的不同

Apriori算法和FP树的实验原理

FP-growth算法是什么

FP-Growth算法原理

fp-growth算法原理

FP-Growth算法是如何改进Apriori算法的？FP-Growth算法的实现步骤是什么？

比较Aprion算法和FP-growth算法

apriori与FP树算法的流程

比较和分析Apriori算法和FP-Growth算法

数据挖掘 fp-growth算法例题

FP-tree算法实验目的

apriori算法和FP-Growth算法的区别

Weka平台实现关联规则挖掘Apriori算法、FP-tree算法对比

最新资源