分布式并行高效用项集挖掘算法P-EFIM

188 浏览量更新于2024-09-03 收藏 544KB PDF 举报

"沈伟，方伟，李琳在《一种分布式并行的高效用项集挖掘算法》中提出了一种名为P-EFIM的新算法，该算法旨在解决高效用项集挖掘（HUIM）在大数据环境下的效率问题。他们工作在Hadoop平台上，利用MapReduce框架设计了一个并行化策略，以提高数据存储和计算的效率。" 高效用项集挖掘（High-Utility Itemset Mining, HUIM）是数据挖掘中的关键任务，其目标是从大量交易数据中找出具有高效用的项集。这些项集在商业智能、市场分析等领域有着广泛的应用。然而，传统的HUIM算法通常受到单机内存和处理器性能的限制，无法处理大规模数据集。因此，沈伟等人提出了P-EFIM算法，以适应大数据时代的需求。 P-EFIM算法的核心是基于MapReduce的分布式并行处理。首先，在Map阶段，算法将事务的加权效用值进行计算和排序，这有助于识别出高效率用的候选项集。然后，通过排序后的项集序列对原始数据集进行重新编号，去除低效用项，以优化数据结构并减少无谓的计算。为了保证任务分配的均衡性和节点负载，他们采用了S型的分配策略，将任务分解为多个子任务并均匀分发到各个计算节点。在Reduce阶段，P-EFIM利用了高效的EFIM算法来挖掘每个子任务数据集，从而提高了整体的执行效率。这种方法有效地减少了数据传输和处理的开销，尤其是在大数据集上的表现更为显著。实验结果显示，P-EFIM在多个大规模数据集上的运行时间明显优于基于MapReduce的PHUI-Growth算法。 P-EFIM算法是一种创新的分布式并行方法，它为解决大数据环境下的高效用项集挖掘问题提供了新的思路。通过充分利用Hadoop平台的分布式计算能力，P-EFIM算法能够处理更大规模的数据集，同时保持较高的挖掘效率。这一研究对于提升大数据时代的挖掘性能和扩展性具有重要的理论与实践价值。

˖ڍመ᝶஠ڙጲ

http://www.paper.edu.cn

1 相关定义

1.1 HUIM 的相关定义

一个事务数据集 D = {T

, T

, · · · , T

} 是由多个事务组成的集合。每个交易集都有一个唯

一的标志符，记为 T

，其中 I = {l

, l

, · · · , l

} 是 D 中所有非重复的项组成的集合。每个事务

的项集 X 都是 I 的子集。每个事务中的每个项都有内部效用值 (比如数量) 和外部效用值 (比

如利润)。一个包含 5 个事务的事务数据库如表 1 所示

[13]

，外部效用值如表 2所示。

表 1: 事务数据集

TID Transaction

(a, 1)(c, 1)(d, 1)

(a, 2)(c, 6)(e, 2)(g, 5)

(a, 1)(b, 2)(c, 1)(d, 6)(e, 1)(f, 5)

(b, 4)(c, 3)(d, 3)(e, 1)

(b, 2)(c, 2)(e, 1)(g, 2)

表 2: 利润表

Item a b c d e f g

Prot 5 2 1 2 3 1 1

定义 1 (项或项集的效用值). 在事务 T

中的项 i 的内部效用值记为 q(i, T

)，外部效用值记

为 p(i)。项 i 的效用值记为 u(i, T

) = p(i) × q(i, T

)。项集 X 在事务 T

的效用值 u(X, T

)，

定义为 u(X, T

) =

∑

i∈X

u(i, T )。项集 X 在整个事务数据库上的效用值记为 u(X)，定义为

u(X) =

∑

∈g (X )

u(X, T

)，其中 g(X) 是包含项集 X 的事务的集合。

例如，项 b 在事务 T

的效用值是 u(b, T

) = 2 × 2 = 4。项集 {a, b} 在 T

的效用值是

u({a, b}, T

) = u(a, T

) +u(b, T

) = 5 ×1+ 2 × 2 = 9。项集 {a, b} 在整个事务数据库上的效用值

是 {a, d} is u({a, d}) = u({a, d}, T

) + u({a, d}, T

) = u(a, T

) + u(d, T

) + u(a, T

) + u(d, T

) =

5 + 2 + 5 + 12 = 24。

定义 2 (HUI). 假设一个项集 X 的效用值是高于人为设定的一个阈值，那么我们认为 X 是高

效用项集，反之就认为是一个低效用项集。高效用项集算法的目的是找出所有的高效用项集。

例如，阈值 minutil = 30，在表 1中挖掘出来的高效用项集是 {b, d}，{a, c, e}，{b, c, d }，

{b, c, e}，{b, d, e}，{b, c, d, e}，和 {a, b, c, d, e, f }，对应的效用值是 30，31，34，31，36，40，和

30。

定义 3 (事务加权效用 ((Transaction weighted utilization，T W U)). 事务 T

的效用记为 T U (T

)，

定义为 T U (T

) =

∑

x∈T

u(x, T

)。项集 X 的事务加权效用是所有包含项集 X 的事务效用的

和，记为 T W U (X)，定义为 T W U(X) =

∑

∈g (X )

T U(T

)。

例如，项集 {g} 的事务加权效用是 T W U [g] = T U [T

]+T U [T

] = 10+6+6+5+4+2+3+2 =

38。

定理 1 (T W U 剪枝). 任意的项集 X，如果 T W U (X) < minutil，那么 X 和它的超集都是低

效用项集

[19]

。

- 3 -

剩余13页未读，继续阅读

weixin_38686557

粉丝: 4
资源: 930

分布式并行高效用项集挖掘算法P-EFIM

分布式全局最大频繁项集挖掘算法.pdf

一种基于分布式数据库的全局频繁项挖掘算法.pdf

一种稳定的并行分布式频繁集挖掘算法及其应用.pdf

基于分布式并行关联规则的挖掘算法.pdf

一种基于后缀项表的并行闭频繁项集挖掘算法 (2014年)

基于分布式全局频繁项集挖掘算法的研究.pdf

分布式并行关联规则挖掘算法研究.pdf

一种分布式全局频繁项集挖掘方法.pdf

分布式并行化数据流频繁模式挖掘算法.pdf

分布式大数据的群体行为模式挖掘算法.pdf

最新资源