DMARF: 基于FP树的高效分布式关联规则挖掘

158 浏览量更新于2024-08-29 收藏 204KB PDF 举报

本文主要探讨了一种名为"基于频繁模式树的分布式关联规则挖掘算法"（Distributed Mining Algorithm for Association Rules based on FP-tree, 简称DMARF）的数据挖掘技术。DMARF算法的设计核心在于其利用了频繁模式树（FP-tree）的概念，这是一种在数据挖掘中用于高效存储和查找频繁项集的数据结构。算法首先通过设置一个中心节点，将数据分布到各个计算节点上。每个节点利用本地的频繁模式树来快速识别出频繁项集，这是对大量原始数据进行预处理的关键步骤。这种方式极大地减少了计算量，因为局部频繁模式树仅需处理部分数据，而不是整个数据集，从而提高了效率。在获取到局部频繁项集后，各个计算节点与中心节点进行交互，将这些信息汇总。这种分布式架构允许算法在不牺牲准确性的情况下，通过并行处理来加速全局频繁项集的发现过程。通过采用顶部和底部策略，DMARF算法能够有效地筛选候选项集，避免不必要的通信开销，进一步优化了算法的性能。 DMARF算法的优势体现在理论分析和实际应用中，它展示了显著的快速性和有效性。通过减少候选集的数量和通信流量，该算法能够在分布式环境中高效地挖掘关联规则，这对于大数据处理和云计算背景下的数据挖掘任务具有重要意义。这篇论文介绍了一种创新的方法，通过结合频繁模式树和分布式计算，实现了关联规则挖掘的高效和可扩展性。对于数据挖掘领域来说，尤其是处理大规模数据集时，DMARF算法提供了一种有价值的技术解决方案。同时，它的理论基础和实际效果证明了其在提高数据处理速度和降低资源消耗方面的实用性。

第 27 卷第 4 期

Vol. 27 No. 4

控制与决策

Control and Decision

2012 年 4 月

Apr. 2012

基于频繁模式树的分布式关联规则挖掘算法

文章编号: 1001-0920 (2012) 04-0618-05

何波

(重庆理工大学计算机科学与工程学院，重庆 400054)

摘要: 提出一种基于频繁模式树的分布式关联规则挖掘算法 (DMARF). DMARF 算法设置了中心结点, 利用局部

频繁模式树让各计算机结点快速获取局部频繁项集, 然后与中心结点交互实现数据汇总, 最终获得全局频繁项集.

DMARF 算法采用顶部和底部策略, 能大幅减少候选项集, 降低通信量. 理论分析和实验结果均表明了 DMARF 算法

是快速而有效的.

关键词: 数据挖掘；频繁模式树；全局频繁项集；关联规则

中图分类号: TP311 文献标识码: A

Distributed algorithm for mining association rules based on FP-tree

HE Bo

(School of Computer Science and Engineering，Chongqing University of Technology，Chongqing 400054，China.

E-mail：hebo@cqut.edu.cn)

Abstract：：：The paper proposes a distributed algorithm for mining association rules based on frequent pattern tree(FP-tree),

named distributed algorithm for mining association rules based on FP-tree(DMARF) algorithm, which sets center node.

DMARF algorithm makes computer nodes compute local frequent itemsets independently from the local FP-tree. Then the

center node exchanges data with other computer nodes. Finally, global frequent itemsets are gained. DMARF can decrease

candidate itemsets and communication trafﬁc by using the strategies of top and bottom. Theoretical analysis and experimental

results show that DMARF algorithm is fast and effective.

Key words：：：data mining；frequent pattern tree；global frequent itemsets；association rules

1 引引引言言言

数据挖掘是从数据集中发现新颖的、预先未知

的、隐藏和有趣的知识. 数据挖掘中的关联规则是

一个重要的研究课题, 有着广泛的应用前景. 关联规

则

[1]

描述的是在给定的事务集中频繁出现项集的规

则, 关联规则挖掘的关键是获取频繁项集.

挖掘频繁项集的算法有 Apriori

[1]

, FP-growth

[2]

和

PARTITION 等, 但这些算法并不适合分布式数据库.

目前, 分布式关联规则挖掘算法主要有CD

[3]

和FDM

[4]

等. CD 算法是基于 Apriori算法的简单并行化, 每次扫

描后需要同步, 结点间通信量非常大. FDM算法对 CD

算法进行了改进, 在各个结点利用类 Apriori 算法挖

掘出局部频繁项集, 各结点交换项集的支持度计数.

这些分布式算法大多采用类 Apriori 算法, 存在候选

项集多、通信量大、同步次数多和扫描数据库次数多

等问题. 针对这些问题, 本文提出一种基于频繁模式

树的分布式关联规则挖掘算法 (DMARF). DMARF 算

法设置了中心结点, 利用局部频繁模式树让各计算机

结点快速获取局部频繁项集, 然后与中心结点交互实

现数据汇总, 最终获得全局频繁项集.

2 相相相关关关描描描述述述

2.1 挖挖挖掘掘掘全全全局局局频频频繁繁繁项项项集集集的的的问问问题题题描描描述述述

全局事务数据库为 DB, 总的事务条数为𝐷. 设𝑃

𝑃

, ⋅ ⋅ ⋅ , 𝑃

𝑛

为 𝑛 台基于无共享体系结构的计算机结点

(简称结点), 即它们之间除通过网络传递信息外, 其他

资源 (如硬盘、内存等) 全部是独立的, DB

𝑖

(𝑖 = 1, 2,

⋅ ⋅ ⋅ , 𝑛) 是 DB 存储于结点 𝑃

𝑖

上的局部事务数据库, 其

中的事务有 𝐷

𝑖

条, 则

DB =

𝑛

∪

𝑖=1

𝑖

, 𝐷 =

𝑛

∑

𝑖=1

𝐷

𝑖

收稿日期: 2010-12-16；修回日期: 2011-03-18.

基金项目: 教育部人文社会科学研究项目(09yjc870032).

作者简介: 何波(1978−), 男, 副教授, 从事数据挖掘、智能信息推荐等研究.

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38659648

粉丝: 4
资源: 902

DMARF: 基于FP树的高效分布式关联规则挖掘

分布式关联规则挖掘系统实现

一种改进的分布式关联规则挖掘算法.pdf

基于分布式系统的关联规则挖掘算法.pdf

网格环境下基于WEKA4WS的分布式矩阵关联规则挖掘算法.pdf

分布式并行关联规则挖掘算法研究.pdf

一种分布式数据库关联规则挖掘算法.pdf

基于分布式并行关联规则的挖掘算法.pdf

一种分布式关联规则挖掘系统的设计和实现.pdf

一种分布式关联规则挖掘系统的设计和实现 (2010年)

Spark平台的分布式阶段自适应关联规则挖掘算法.pdf

最新资源