D_Apriori算法：基于二分法的关联规则挖掘改进

103 浏览量更新于2024-08-29 收藏 1.51MB PDF 举报

"基于二分法的改进Apriori关联算法研究" 在数据挖掘领域，关联规则挖掘是一种重要的技术，用于发现数据库中项集之间的有趣关系。经典的Apriori算法是这个领域的基石，由Agrawal等人在1994年提出。然而，由于其逐层迭代的方式来产生候选频繁项集，Apriori算法在处理大数据集时效率较低，容易导致大量的计算和内存消耗。针对这一问题，文章提出了一种名为Dichotomy Apriori (D_Apriori)的改进算法，该算法引入了二分法的思想来提高效率。D_Apriori算法的核心在于它不遵循传统的逐层迭代方式，而是通过逐步逼近的方法越级生成频繁K-项集。具体来说，它利用二分法确定每次需要生成的频繁项集的长度，然后结合排列算法或取并集算法直接产生频繁K-项集，有效地减少了频繁项集的迭代过程。传统的Apriori算法首先生成频繁1-项集，然后基于这些频繁1-项集生成频繁2-项集，以此类推，直到找到所有频繁项集。而D_Apriori算法则试图跳过中间的某些步骤，直接生成更大长度的频繁项集，从而减少了数据库的扫描次数和计算量。实验结果显示，在不同数据量、支持度和事务长度的条件下，D_Apriori算法相比于原版Apriori算法，平均效率提升了至少12%，这表明了其在提高算法运行速度方面的显著优势。此外，这种改进对于资源有限的环境尤其有利，因为它可以更有效地处理大规模数据集，节省计算资源。关联规则挖掘的目标是找到满足最小支持度阈值的频繁项集，并从中导出强关联规则。D_Apriori算法的改进不仅体现在计算效率上，还可能有助于降低内存需求，因为减少了生成的候选集数量。在实际应用中，例如在市场篮子分析、疾病诊断、网络流量分析等领域，这样的优化对于实时决策和快速响应至关重要。 D_Apriori算法是Apriori算法的一次重要优化，它结合了二分法的高效性和排列或并集操作的直接性，有效地减少了计算时间和迭代次数。这种改进策略为关联规则挖掘提供了一个新的视角，对于后续的研究和实际应用具有积极的启示意义。

电子设计工程

Electronic Design Engineering

第 28卷

Vol.28

第 16期

No.16

2020年 8月

Aug. 2020

收稿日期：2019-11-19 稿件编号：201911148

作者简介：叶峰（1993—），男，湖北随州人，硕士研究生。研究方向：数据挖掘。

Agrawal 等人

[1]

提出的 Apriori 算法是最有影响的

布尔型关联规则挖掘算法之一，但执行效率不高，近

些年提出了很多改进的算法。文献[2-4]通过优化数

据存储结构，减少数据库的扫描次数。文献[5-7]提

出一种双阈值 Apriori 算法并从挖掘正负关联规则，

有效降低频繁项集和规则数量。文献[8-10]利用矩

阵压缩频繁项集，减少频繁项集数量。文献[11-13]

以矩阵为基础给数据加入权值，进一步压缩了数据。

文献[14]从概率角度出发，以基于固定概率参数的

Apriori改进算法，过滤关联度较弱的候选集。文献[15]

将 Apriori 算法与散列技术以及事务压缩技术相结

合，提高频繁项集的有效性。文献 [16]摒弃先验算

法，提出了一种非冗余替换规则挖掘算法，作者验证

了该算法在性能上优于先验算法。以上改进算法均

取得了较好的效果，但算法均显得较为复杂，不利于

实现并应用。本文基于二分法的思想，利用每次产

生的频繁项集判断是否改变下次频繁项集产生的方

法，从而实现越级产生频繁项集。

1 Apriori 算法原理

Apriori 算法主要是通过计算的频繁项集找出各

基于二分法的改进 Apriori 关联算法研究

叶峰

（武汉邮电科学研究院湖北武汉 430074）

摘要：经典 Apriori 算法通过逐层迭代的方式产生备选项集，使得算法效率不高。针对该问题，提出

一种基于二分法的改进关联规则算法：Dichotomy Apriori 算法（D_Apriori 算法）。D_Apriori 算法利

用逐步逼近的思想越级产生频繁 K-项集，引入二分法获取每次需要产生频繁项集中集合的长度，

结合排列算法或者取并集算法直接产生频繁 K-项集。通过算例分析与实验验证结果表明，在数据

量、支持度和事物长度分别不同的情况下，改进算法能有效减少频繁项集的迭代过程和运算时间，

使算法的平均效率至少提高了 12%。

关键词：关联规；Apriori 算法；频繁项集；二分法

中图分类号：TN302 文献标识码：A 文章编号：1674-6236（2020）16-0049-05

DOI：10.14022/j.issn1674-6236.2020.16.011

Research on improved Apriori association algorithm based on dichotomy

YE Feng

（Wuhan Institute of Posts and Telecommunications，Wuhan 430074，China）

Abstract: The classical Apriori algorithm generates alternative sets by layer ⁃by ⁃layer iteration，which

makes the algorithm inefficient.Aiming at this problem，an improved association rule algorithm based on

dichotomy is proposed: Dichotomy Apriori algorithm（D_Apriori algorithm）.The D_Apriori algorithm uses

the idea of stepwise approximation to generate frequent K⁃itemsets，introduces the dichotomy method to

obtain the length of the set of frequent itemsets each time，and combines the permutation algorithm or the

union algorithm to directly generate frequent K ⁃ itemsets. The results of numerical examples and

experimental verification show that the improved algorithm can effectively reduce the iterative process

and operation time of frequent itemsets，and the average efficiency of the algorithm is increased by at

least 12% under different data volumes，different support degrees and different lengths of things.

Key words: association rule；Apriori algorithm；frequent itemsets；dichotomy

-- 49

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38590996

粉丝: 8

D_Apriori算法：基于二分法的关联规则挖掘改进

Apriori算法及其改进算法

apriori改进算法，使用矩阵实现

基于矩阵的Apriori算法改进

基于二分法的凸多边形内外点判别算法

二分法直接插入排序算法

二分法和迭代法算法

基于线性插值的求解非线性方程二分法改进

erfenfa.rar_erfen_matlab 二分法_matlab，二分法_二分法_二分算法matlab

一种基于二分法的GPS弱信号快速捕获算法.pdf

PHP基于二分法实现数组查找功能示例【循环与递归算法】

最新资源