优化的Apriori算法：降低数据挖掘代价与提升效率

需积分: 5 147 浏览量更新于2024-08-12 收藏 2.36MB PDF 举报

本文主要探讨了在2013年发表的一篇名为《一种改进的频繁项目集挖掘算法》的论文，作者是张林和王宏海，分别来自安徽三联学院的计算机科学与技术系和电子与通信技术系。文章针对Apriori算法存在的两个主要问题——频繁扫描数据库和产生大量候选集，提出了创新性的解决方案。 Apriori算法作为数据挖掘领域中的经典方法，用于发现事务数据库中的频繁项集和关联规则。然而，其核心机制导致了效率问题，即每次寻找频繁项集时都需要对数据库进行多次扫描，这不仅增加了计算时间，还可能导致候选集膨胀，消耗大量内存资源。为了解决这些问题，文中提出的改进算法进行了以下关键改进： 1. **单次扫描优化**：新算法通过一次性扫描数据库，构建了一个链表结构，每个节点利用比特位来表示项目在事务数据库中的出现位置。这种方法显著减少了数据库访问次数，提高了数据处理的效率。 2. **避免候选集生成**：传统的Apriori算法会根据支持度阈值生成候选集，而该算法在不产生候选集的情况下，直接通过逻辑运算（如AND操作）和集合运算（如并集、交集）实现频繁项集的直接生成。这消除了生成和评估大量候选集的步骤，进一步降低了计算复杂性。 3. **准确性与代价权衡**：尽管新算法在设计上减少了资源消耗，但论文指出它在保证频繁项目集挖掘的准确性方面并未妥协。这意味着改进后的算法在提高效率的同时，也维持了结果的质量。论文通过实例分析展示了新算法相对于Apriori算法的优势，包括更低的计算成本和内存占用，特别是在处理大规模数据集时，这种优势更为明显。此外，关键词“频繁项目集”、“数据挖掘”、“Apriori算法”和“关联规则”强调了研究的核心内容和应用背景，即在数据挖掘任务中提升性能和效率。这篇论文为解决频繁项目集挖掘中的瓶颈问题提供了一个创新的方法，对现有算法进行了优化，有望在实际应用中提高数据挖掘任务的执行效率和资源利用率。对于那些关注数据挖掘效率和性能优化的科研人员来说，这篇文章具有重要的参考价值。

第

卷第

期

2013

年

月

阜阳师范学院学报(自然科学版)

Joumal of Fuyang Teachers College (Natural Science)

一种改进的频繁项目集挖掘算法

张林"，王宏海

(安徽三联学院

计算机科学与技术系，

电子与通信技术系，安徽合肥

230601 )

l. 30,

No.

Mar.

2013

摘

要:针对

Apriori

算法需姿多次扫描数据库以及可能产生庞大候选集的瓶颈问题，提出了一种改进的频繁项目集

挖掘算法，该算法仅通过一次数据库的扫描生成一个链哀，以比特位的方式存储项目在事物数据库中出现的位置，并在不

产生候选集的基础上通过逻辑运算与集合运算的直接生成频繁项目集。经过实例分析，结果表明该算法相对于

Apriori

算

法，能够在保证准确率的基础上拥有更低廉的代价。

关键词:频繁项目集;数据挖掘

;Apriori;

算法;关联规则

中图分类号:

文献标识码

文章编号:

-4

329( 2013 )01

-0

An improved algorithm for frequent item sets mining

ZHANG

Lin"

WANG

Hong-hai

(a.

Department

Computer

Science

α nd

Technology ,

Department

Electronics and

Communic

tion

Technology , Anhui

nlian

University ,

H，

价

Anhui 230601 , China)

Abstract:

solve the bottleneck problems that Apriori algorithm needs

scan database time after time and

may

produce a

large number of candidate sets

, this paper proposes

improved algorithm

for

mining frequent item sets. This algorithm needed

scan database only once and generated a linked list whose node stored the position of item set in database

t. Without producing

candidate sets

, the algorithm could directly generate frequent item sets

logic and set operation. The example analysis shows that

compared

with

Apriori algorithm , this algorithm not only guarantees the accuracy but also costs less.

Key

words:

frequent item sets; data mining; Apriori; algorithm; asso

cÍ

ation rules

虽然传统的

Apriori

算法作为经典的关联规则

生成算法仍在被广泛的讨论，但该算法在产生频繁

项目集的过程中存在数据库扫描次数过多、数据库

遍历空间过大以及可能产生庞大的候选集等瓶颈

问题，这在很大程度上制约了算法的效率。本文在

参考了近年来关于

Apriori

的各种改进算法的基础

上，

1-8J

从比特的逻辑运算和集合论的相关运算入

手，提出了新的频繁项目集挖掘算法。本算法在保

证了准确率的基础上降低了挖掘算法的代价，提高

了挖掘效率。

收稿日期

:2013

-0

1-14

算法描述

优化的Apriori算法：降低数据挖掘代价与提升效率

一种基于频繁模式树的约束最大频繁项目集挖掘及其更新算法

基于MapReduce的频繁项目集挖掘算法在煤炭销售系统中的研究

频繁项集挖掘算法阈值怎么求

Aprior算法计算频繁项集

常见的无监督学习关联规则挖掘算法有什么

关联规则挖掘算法aprior

数据挖掘使用Apriori算法找出数据集中的频繁项集

python 频繁项集_Apriori算法：从数据中挖掘频繁项集

关联规则—频繁项集Apriori算法

最新资源