GPU异构计算下的关联规则挖掘：增量式算法与性能分析

需积分: 0 145 浏览量更新于2024-08-04 收藏 420KB DOCX 举报

"本文主要探讨了基于GPU异构计算的关联规则挖掘算法及其在增量式情况下的应用。关联规则挖掘是数据分析的重要手段，用于发现数据中的频繁项集和潜在关联，常应用于购物篮分析。文章介绍了Apriori算法的基础，FUP增量式关联规则挖掘算法，并详细讲解了如何利用CUDA在GPU上加速支持度计算。此外，还讨论了数据预处理、候选项生成、支持度计数的方法以及优化策略。最后，进行了性能比较和对算法缺陷的总结。" 关联规则挖掘是一种数据挖掘技术，用于发现数据集中项目之间的有趣关系，如在零售业中，哪些商品经常一起被购买。购物篮分析是这一领域的典型应用，通过分析顾客购买的商品组合，帮助企业制定销售策略。 Apriori算法是关联规则挖掘的经典算法，它遵循“频繁项集一定是其子集频繁”的原则，通过迭代生成并检查候选频繁项集，避免了无用的计算。然而，随着数据量的增长，Apriori的效率会显著下降。为了应对大数据场景，文章引入了GPU异构计算，使用CUDA编程模型在GPU上并行计算支持度，极大地提高了计算速度。在数据预处理阶段，可能采用字典树（如Trie树）结构来高效地生成候选项集。接着，利用GPU并行计算能力，快速计算每个候选项集的支持度，这通常涉及大量事务的并行扫描和计数。 FUP（Fixed Update Pattern）增量式关联规则挖掘算法则是针对数据动态变化的一种优化策略。在数据流或持续更新的数据库中，不需重新遍历整个数据集，只需处理新增或修改的部分，从而减少了计算量。支持度和置信度是评估关联规则强度的关键指标。支持度衡量规则在数据集中的普遍程度，而置信度则表示在满足前件的情况下后件发生的概率。两者通常设定阈值，只有超过这些阈值的规则才被认为是有趣的。文章还简要讨论了算法优化，可能包括减少内存访问、改进并行化策略等。性能比较部分对比了传统方法与GPU加速后的效果，展示了GPU计算在关联规则挖掘中的优势。最后，总结了算法存在的局限性，例如GPU计算可能带来的额外开销，以及如何进一步优化这些问题。本文深入研究了GPU异构计算在关联规则挖掘中的应用，提供了一种高效处理大规模数据的解决方案，并探讨了在增量数据上的应用，对于理解和改进大数据环境下的关联规则挖掘算法具有重要价值。

数据库，累计每个项的计数，并收集满足最小支持度的项，找出频繁 1-项集的集合，

该集合记作 L

。之后使用 L

找出频繁 2-项集的集合 L

，使用 L

找出 L

，依次类推，

直到不能再找出频繁 k-项集。找出每一个 L

需要一次数据库的完整扫描。

利用先验性质（频繁项集的所有非空子集也一定是频繁的。即如果一个集合不能

通过最小支持度阈值测试，则它的所有超集也不能通过最小支持度阈值测试）来提高

频繁项集逐层产生的效率。通过 L

k-1

找出 L

，其中主要包括连接步和剪枝步两个步骤。

连接步：通过将 Lk-1 与自身连接产生候选 k-项集的集合 C

。设

和

是项集

k-1

中的项集

，l

[

]表示

的第

项。Apriori 算法中假定事务或者项集中的项按字典序排序。

对于（k-1）项集

，这意味着

[1]<

[2]<…<

[k-1]。执行连接操作，其中

k-1

的元素

是可连接的，如果他们前（k-2）个项相同。即，

k-1

的元素

和

是可连接的，如果

（

[1]=

[1]）∧（

[2]=

[2]）∧…∧（

[k-2]=

[k-2]）∧（

[k-1]<

[k-1]）。

和

连接的结果项集是{

[1]，

[2]，…，

[k-2]，

[k-1]，

[k-1]}。

剪枝步：C

是 L

的超集，即它的成员可以是频繁的也可能是不频繁的，但所有的

频繁 k-项集都包含在 C

中。通过先验性质来压缩 C

。因为任何非频繁的（k-1）项集

都不是频繁 k 项集的子集。所以，如果一个候选 k-项集的（k-1）项子集不在 Lk-1 中，

则该候选项不可能是频繁的，从而可以将其从 C

中删除。

Apriori 算法是一种广度优先算法，需要对事务数据库进行多次扫描来发现所有的

频繁项集，并且一次扫描只能解决同一长度为 k 的所有项集。

三、关于 FUP 增量式关联规则挖掘算法的说明

Apriori 算法是在事务数据库中数据不变的前提下进行的，当数据增加时，若使用

Apriori 算法则会导致上一次生成的频繁项集不再有用，而重新执行 Apriori 算法的时间

开销太大，增量式关联规则挖掘算法用于这种情况的数据挖掘。FUP 算法的基本思想

很简单，主要描述如下：

设原事务数据库的数据集为 D，新增的数据集为 d，则变化后的事务数据库为

（D+d）。设 L(D)为使用 Apriori 算法对数据集 D 进行挖掘得到的全部频繁项集。

1) 利用 Apriori 算法生成新事物数据集 d 的频繁项集 L(d)，对 L(D)和 L(d)进行比

较，找出公共相同的部分。则相同部分的频繁项集一定属于更新后的事务集（D+d）

的频繁项集。

2) 设某一项集为 t，若 t 属于 L(d)，但不属于 L(D)，则扫描 D 得到 t 在 D 中的支

持度计数 Sup

，再根据 d 中已经得出的 t 的支持度 Sup

，求出 t 在（D+d）中的支持

度 Sup

+d，如果 Sup

D+d

≥min_sup，则将 t 放入到变化后的数据集（D+d）中，否则

t 将不是频繁项集。

3) 若 t 属于 L(D)，但不属于 L(d)，则扫描 d 得到 t 在 d 中的支持度计数 Sup

，再

根据 D 中已经得出的 t 的支持度 Sup

，求出 t 在（D+d）中的支持度 Sup

D+d

，如果

Sup

D+d

≥min_sup，则将 t 放入到变化后的数据集（D+d）中，否则 t 将不是频繁项集。

四、关于在使用 CUDA 进行关联规则挖掘算法前数据的预处理

剩余10页未读，继续阅读

kdbshi

粉丝: 742
资源: 298

GPU异构计算下的关联规则挖掘：增量式算法与性能分析

精选毕设项目-微笑话.zip

在线教育系统-springboot毕业项目，适合计算机毕-设、实训项目、大作业学习.zip

基于智能推荐的卫生健康系统-springboot毕业项目，适合计算机毕-设、实训项目、大作业学习.zip

精选毕设项目-课程预约.zip

同步机(VSG)三相并网仿真模型 有功功率从20k突变到10k再恢复至20k 系统始终稳定运行 该仿真主要用于基础原理的学习

南京理工大学毕业论文overleaf LaTex模板，微调版

智能物流管理系统-springboot毕业项目，适合计算机毕-设、实训项目、大作业学习.rar

农作物病虫害识别目标检测数据集，VOC格式，负蝗数据集，纯手动标注，用来进行目标检测代码训练的数据

基于vue的工厂车间管理系统的设计-springboot毕业项目，适合计算机毕-设、实训项目、大作业学习.zip

[电池SOC估算案例1]: 使用深度学习方法锂电池soc估算学习案例（使用matlab完成） 1.基于循环神经网络（长短时记忆神经网络LSTM）的锂离子电池soc估算方法，电压电流作为输入，soc作为

最新资源

同步机(VSG)三相并网仿真模型有功功率从20k突变到10k再恢复至20k 系统始终稳定运行该仿真主要用于基础原理的学习