N-list并行关联规则挖掘算法：应对大数据挑战

版权申诉

194 浏览量更新于2024-06-29 收藏 681KB DOCX 举报

随着信息技术的飞速发展，大数据已成为各行各业的重要驱动力，特别是在互联网、社交网络和物联网等场景下。大数据的价值挖掘不仅是企业决策的关键，也是学术研究的热点。关联规则挖掘作为数据挖掘中的核心任务之一，旨在揭示数据中的潜在规律和关联性。传统的关联规则挖掘算法，如Apriori、FP-Growth和Eclat，虽然各有优势，但在面对海量数据时，面临运行时间长和内存消耗大的挑战。为了克服这些问题，研究人员转向并行计算和分布式处理技术。MapReduce并行编程模型，由Google提出，因其易于使用、容错性、负载均衡和扩展性，成为并行计算领域的热门选择。Hadoop作为MapReduce的开源实现，极大地推动了其在大数据处理中的应用。文献[9,10,11]通过将Apriori算法与MapReduce结合，例如在每次迭代中分割任务至多个Map和Reduce阶段，实现了Apriori算法在大数据环境下的分布式执行。然而，这种方法并非完美，它仍存在缺点。首先，即使利用并行化，Apriori算法依然需要多次扫描数据集，并生成大量的候选项集，这在大规模数据集上会带来性能损耗。此外，候选集生成可能会消耗大量内存，与大数据环境中的资源限制相冲突。因此，研究者们寻求创新，提出了采用N-list结构的混合并行频繁项集挖掘算法。 N-list结构是一种优化策略，它通过预处理数据，减少候选集的数量，从而降低内存消耗。这种算法在频繁项集挖掘过程中，通过有效地管理和组织数据，减少了不必要的计算，提高了算法的效率。N-list可以合并频繁项集的生成过程，避免重复计算，同时利用并行计算能力，加速各个子任务的完成，从而显著缩短整个挖掘过程的时间。 N-list结构的混合并行频繁项集挖掘算法是针对大数据环境下的关联规则挖掘问题提出的一种解决方案，它结合了MapReduce的并行优势和N-list结构的优化策略，旨在提高挖掘效率、降低内存需求，以适应海量数据的实时处理和分析。未来的研究将继续关注如何更好地优化并行计算策略，以进一步提升大数据挖掘的性能和实用性。

表 2 频繁 1 项集获取过程

Table 2 Process of getting F-list

原始数据

Map

Combine

Reduce

a,c,g,f

<a:1>,<c:1>,<g:1>, <f:1>

e,b,h

<e:1>,<b:1>,<h:1>

e,c,b,i

<e:1>,<c:1>,<b:1>,<i:1>

b,c,e

<b:1><c:1>,<e:1>

b,f,a,c,e

<b:1>,<f:1>,<a:1>,<c:1>,<e:1>

b, f, c, a

<b:1>,<f:1>,<c:1>,<a:1>

<a:3>, <b:5>

<c:5>, <g:1>

<e:4>, <f:3>

<h:1>, <i:1>

<b:5>

<c:5>

<e:4>

<a:3>

<f:3>

新窗口打开| 下载 CSV

最终根据支持度降序排序生成的 F-list 序列为{b:5; c:5; e:4; a:3; f:3}。

2.2 频繁 1 项集分组

大数据环境下,经过第一阶段获得的频繁 1 项集 F-list 的规模非常大,导致

无法在有限的内存空间中构造 PPC-Tree 树。为解决此问题,提出了一种基于贪

心策略的分组方法 GM-GS。该方法的主要思想是先求取所有频繁 1 项集对于

分组数量的负载均值 avg,然后为每组分配一个接近负载均值的负载量,从而达

到整体的负载均衡。采用 GM-GS 分组方法将 F-list 进行分组时,其关键在于计

算频繁 1 项集中每一项的负载量,即频繁 1 项集中每项所对应的 N-list 结构长度。

然而 N-list 中的元素与 PPC-Tree 树中的节点一一对应,在没有构造 PPC-Tree

树之前无法准确计算出每一项的负载量。为了解决该问题,在 GM-GS 方法中通

过负载估计函数来预测频繁项 item 的 N-list 长度。

定义 6（负载估计函数 LE）若频繁项 item 的支持度是 count,在 F-list 中

的位置为 loc,则其负载估计函数如下所示：

EL(item)=mincount,2loc-1

（3）

证明对于频繁项 item 来说,其 N-list 的长度表示该项在 PPC-Tree 树中的

节点个数,显然对于每一项来说,节点数的最大值为该项的支持度。此外在构造

剩余32页未读，继续阅读

罗伯特之技术屋

粉丝: 4406
资源: 1万+

N-list并行关联规则挖掘算法：应对大数据挑战

APRIORI算法中频繁项集的挖掘

人工智能和机器学习之关联规则学习算法：R-Apriori算法：频繁项集挖掘技术.docx

人工智能和机器学习之关联规则学习算法：H-Mine算法：频繁项集挖掘技术.docx

基于信息熵与遗传算法的并行关联规则增量挖掘算法.docx

人工智能和机器学习之关联规则学习算法：Eclat算法：频繁项集挖掘技术.docx

数据挖掘算法.docx

一种基于sort-last架构的非结构网格并行体可视化算法.docx

相似分布特性准则下的高斯混合项聚类-合并算法.docx

人工智能和机器学习之关联规则学习算法：图关联规则挖掘算法.docx

数据挖掘十大算法.docx

最新资源