优化Apriori算法：垂直数据格式提升频繁项集挖掘效率

45 浏览量更新于2024-09-02 收藏 202KB PDF 举报

在数据挖掘领域，关联规则是探索数据中隐藏的有趣关系的重要方法，尤其是在Apriori算法中起着核心作用。该算法的核心任务是寻找频繁项集，即在数据集中频繁出现的特定组合。Apriori算法的工作流程包括多轮扫描数据库，首先生成候选频繁项集，然后通过检查支持度来确定真正的频繁项集。然而，这个过程中存在的问题是计算候选项目集的开销，尤其是当数据集规模较大、频繁项集项数较多时，候选集的数量急剧增加，导致CPU消耗巨大。垂直数据格式是一种优化策略，它针对这个问题提出了解决方案。传统的关联规则挖掘方法需要对每个候选项目集进行全表扫描，而垂直数据格式则是将数据按照属性进行组织，使得频繁项集的查找变得更为高效。在垂直数据格式下，数据按列存储，对于频繁项集的生成，可以减少不必要的交叉操作，直接在列级数据上进行计算，显著减少了候选项目集的数量，从而降低CPU开销。具体来说，使用垂直数据格式挖掘频繁项集的步骤如下： 1. 数据预处理：首先对原始数据进行整理，按照属性将数据转换为垂直格式，这样可以减少在频繁项集生成阶段的候选集数量。 2. 候选项集生成：在垂直数据格式中，可以通过快速搜索特定列来找到频繁项集的可能组合，而不是遍历所有可能的子集，从而避免了大量无效计算。 3. 支持度计算：在垂直结构中，计算单个属性的频率更加直观和快速，这有助于快速确定频繁项集的支持度，而不必像Apriori那样逐个扫描事务。 4. 迭代优化：随着挖掘深度的增加，垂直数据格式的优势更明显，因为候选项目集的数量不会随着项数的增加呈指数级增长，从而提高了算法的效率。通过使用垂直数据格式，关联规则挖掘特别是Apriori算法的执行效率得到了显著提升，特别是在大数据场景下，这不仅节省了计算资源，还加速了频繁项集的挖掘过程。因此，垂直数据格式已经成为提高关联规则挖掘性能的有效手段，是现代数据挖掘技术中的重要优化策略。

使用垂直数据格式挖掘频繁项集使用垂直数据格式挖掘频繁项集

关联规则是数据挖掘的主要技术之一，它是描述数据库中一组数据项之间的某种潜在关系的规则。关联规则挖

掘算法——Apriori算法，主要过程是对频繁项集的挖掘,而在对频繁项集的挖掘中首先要生成候选频繁项集，然

后再从候选集中确定出满足最小支持度计数的频繁项集,这会耗费大量的CPU开销。使用垂直数据格式挖掘频繁

项集可避免候选项目集的求解。

摘摘要：要：

关键词关键词: 关联规则；Apriori算法；频繁项集；垂直数据格式

通常，关联规则挖掘是指从一个大型的数据集中发现有趣的关联或相关关系，即从数据集中识别出频繁出现的属性值集

（Sets of Attribute-Values），也称为频繁项集（Frequent Itemsets,简称频繁集），然后再利用这些频繁集创建描述关联规则

的过程。

1 关联规则挖掘算法关联规则挖掘算法

关联规则挖掘算法——Apriori算法是使用候选项集找频繁项集的过程。

Apriori算法通过对数据库D的多趟扫描来发现所有的频繁项目集。在第一趟扫描数据库时，对项集I中的每一个数据项计算其

支持度，确定出满足最小支持度的频繁1项集的集合L1，然后，L1用于找频繁2项集的集合L2，如此下去……在后续的第k次扫

描中，首先以k-1次扫描中所发现的含k-1个元素的频繁项集的集合Lk-1为基础，生成所有新的候选项目集CK（Candidate

Itemsets），即潜在的频繁项目集，然后扫描数据库D，计算这些候选项目集的支持度，最后从候选集CK中确定出满足最小支

持度的频繁k项集的集合Lk,并将Lk作为下一次扫描的基础。重复上述过程直到不再发现新的频繁项目集[1]。

2 关联规则算法的改进关联规则算法的改进

从Apriori算法中由k频繁项集生成k+1频繁项集时，首先生成候选项目集Ck+1，该函数不仅要对k项集的所有符合Apriori算法

条件的数据进行交集，并且要判断候选项目集的所有子集是否在k频繁项集中。该函数生成的许多候选项目集并不是要找的频

繁项集，但在扫描数据库时，要记录下这些数据的出现次数，这会耗费大量的CPU开销。如果D中的事务数很大，k频繁项集

中项数很多，则侯选项目集的元素个数就会很大，例如2 000个频繁1项集，将产生2 000×999/2=999 000个候选2项集。如此

巨大数量的候选项目集，对它进行出现次数的统计时开销非常大，这也是整个算法性能优劣的关键所在。

（1）使用垂直数据格式挖掘频繁项集

Apriori算法是从TID项集格式（即{TID：itemset}）的事务集挖掘频繁模式，其中TID是事务标识符，而itemset是事务TID中

购买的商品集。这种数据格式称作水平数据格式。另外,数据也可以用项-TID集格式(即{item:TID_set})表示，其中item是项的

名称，而TID_set是包含item事务标识符的集合。这种格式称作垂直数据格式。下面使用垂直数据格式进行有效的挖掘频繁项

集。

首先，通过扫描一次数据库D，在求频繁l项集的同时，把数据由水平格式转化为垂直格式，即记录下每个项集在事务数据

库中出现时该条数据在数据库D中的TID号，则项集的支持度计数直接是项集的TID集的长度。从k=2开始，根据Apriori性质中

相交条件的项集进行Apriroi连接运算，使用频繁k项集来构造候选k+1项集。通过取频繁k项集的TID集的交计算对应的k+1项集

的TID集。如果该TID集的长度大于最小支持度计数，则该记录为频繁项集。重复该过程，每次k值增加1，直到不能再找到频

繁项集或候选项集。

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38687904

粉丝: 8
资源: 920

优化Apriori算法：垂直数据格式提升频繁项集挖掘效率

Spark框架下FP-Growth算法在大数据频繁项集挖掘中的应用

Eclat算法实现：深入理解频繁项集挖掘

探索HybridDSItr：混合数据结构在垂直格式挖掘中的应用

基于垂直数据格式频繁闭项集的选择性集成算法的研究

一种使用N-list快速挖掘频繁项集的新算法

基于约束的不确定数据频繁项集挖掘算法研究 (2012年)

论文研究-基于约束的不确定数据频繁项集挖掘算法研究.pdf

论文研究-基于先验位运算的频繁项集挖掘.pdf

采用N-list结构的混合并行频繁项集挖掘算法.docx

工业大数据背景下频繁项集挖掘算法对比分析及研究展望.pdf

最新资源