关联规则增量更新算法的研究与应用

需积分: 5 159 浏览量更新于2024-08-08 收藏 814KB PDF 举报

"一种关联规则增量更新算法 (2009年)" 本文主要探讨了关联规则数据挖掘中的一个重要问题——如何在数据集发生变化时，高效地更新频繁项目集。关联规则挖掘是数据挖掘的一个核心分支，它旨在发现数据集中项目之间的有趣关联。频繁项目集是满足最小支持度和最小置信度条件的项目组合，这些项目在交易数据库中频繁出现。传统的关联规则挖掘算法，如Apriori和AprioriTid，通常基于固定的数据库和最小支持度阈值寻找频繁项目集。然而，在实际应用中，数据库可能会随时间增长、记录被删除或支持度阈值需要调整，这使得对频繁项目集的更新成为必要。重新进行完整的挖掘过程既耗时又效率低下，因此，提出了增量更新算法来应对这一挑战。文章提出了一种改进的增量更新算法，该算法专注于在最小支持度保持不变，但数据库D增加了一个数据集db的情况下，有效地更新关联规则。这种算法旨在利用已有的挖掘结果，减少计算成本，提高更新速度。算法的主要思路是利用已知的频繁项目集和新加入的数据，通过一定的策略只处理受影响的部分，而不是重新计算整个频繁项目集。这包括识别哪些项目因为新数据而变得不频繁，以及哪些新的频繁项目可能由此产生。通过对新数据的影响范围进行限制，可以显著降低计算复杂性。实验结果证明了该算法的有效性和效率。它能够在数据集动态变化的环境中，快速适应并更新频繁项目集，这对于实时数据挖掘和大数据环境下的决策支持具有重要意义。关联规则的更新算法不仅对于数据库管理和信息系统的性能优化至关重要，还对诸如市场篮子分析、模式发现、推荐系统等应用领域有深远影响。通过高效的更新机制，可以更好地跟踪数据的动态变化，为决策提供更及时和准确的信息。这篇论文贡献了一种新的关联规则增量更新方法，对于处理大规模、动态变化的数据集提供了理论支持和实践指导，推动了数据挖掘领域的进一步发展。其方法的有效性和实用性对于后续的研究和实际应用具有重要的参考价值。

第  卷第  期

 年  月

西安科技大学学报

ＪＯＵＲＮＡＬＯＦＸＩＡＮＵＮＩＶＥＲＳＩＴＹＯＦＳＣＩＥＮＣＥＡＮＤＴＥＣＨＮＯＬＯＧＹ

ＶｏｌＮｏ＆

Ｊａｎ：

文章编号    

一种关联规则增量更新算法



兰天杨君锐

西安科技大学计算机科学与技术学院 陕西西安 

摘要 关联规则是数据挖掘领域的一个重要分支而发现频繁项目集是关联规则数据挖掘中的

关键问题 频繁项目集是在给定的交易数据库Ｄ下满足最小支持度和最小置信度下的一个项目

集合但随着数据集的增减就会产生不同的频繁项目集 如何发现在数据集变化情况下频繁项

目集快速和高效地更新是文中解决的问题 为此提出了一种改进的增量更新算法实验结果表

明此算法有较好的效果

关键词 数据挖掘 关联规则 增量更新 频繁项目集

中图分类号 ＴＰ 文献标志码 Ａ

０引言

数据挖掘ＤＭＤａｔａＭｉｎｉｎｇ被认为是目前在数据库研究中最热门的一个新领域而关联规则Ａｓｓｏｃｉ

ａｔｉｏｎＲｕｌｅｓ数据挖掘又是ＤＭ中最活跃和开展得较深入的一个分支 关联规则



反映了数据库中数据

项目之间有趣的关联关系而其中发现频繁项目集是关联规则挖据应用中的关键技术和步骤 关于频繁

项目集的算法研究人们对此进行了大量的工作其中以ＲＡｇｒａｗａｌ等人提出的ＡｐｒｉｏｒｉＡｐｒｉｏｒｉＴｉｄ等算法

最具影响力和代表性



 而这些算法的出发点都是在特定的交易数据库Ｄ和最小支持度阈值ｍｉｎｓｕｐ

下寻找频繁项目集 但实际应用中遇到的情况可能是随着时间的推移Ｄ的规模可能不断膨胀或需要

从Ｄ中删除一部分记录或者需要对ｍｉｎｓｕｐ进行不断的调整从而逐步聚焦到频繁项目集上 可是频繁

项目集的发现又是一个高花费的问题这样对于每一次Ｄ或ｍｉｎｓｕｐ的变化就单独重新进行一遍挖掘就

不经济于是如何高效利用先前的寻找结果进行更新挖掘就显得尤为重要 为此提出一种快速而有效

地针对ｍｉｎｓｕｐ不变而交易数据库Ｄ增加一数据集ｄｂ后的关联规则的更新算法

１问题描述

１１关联规则的形式化描述

１

设Ｉ ｉ



ｉ



ｉ

ｍ

是ｍ个不同项目的数据项集Ｄ是一个交易数据库每条交易Ｔ对应于一个数据

项子集即ＴＩ每条交易由一个ＴＩＤＴｒａｎｓａｃｔｉｏｎＩｄｅｎｔｉｆｉｅｒ标识 对数据项集Ｘ当且仅当ＸＴ称交

易Ｔ包含Ｘ项目集中项目的个数称为项目集的维数或长度若项目集的长度为ｋ称为ｋ维项目集

定义 若项目集ＸＩ非空交易数据库Ｄ的总交易数为ＮＤ中包含Ｘ的交易数为Ｓ则项目集Ｘ的支

持度为Ｓ Ｎ记为ｓｕｐＸ

定义 关联规则是形如ＸＹ的蕴含式其中ＸＩＹＩ且ＸＹ 

定义 形如ＸＹ关联规则的支持度为ＸＹ在Ｄ中包含的概率记为ｓｕｐＸＹ

定义 形如ＸＹ关联规则的置信度为在某交易中包含Ｘ的前提下同时也包含Ｙ的概率记为ｃｏｎｆＸ

Ｙ



收稿日期   

基金项目 陕西省自然科学基金项目Ｆ 陕西省教育厅专项科研基金项目ＪＫ

作者简介 兰天  男河南洛阳人硕士研究生主要从事人工智能数据挖掘方面的研究

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38612909

粉丝: 4
资源: 919

关联规则增量更新算法的研究与应用

可增量更新的关联规则挖掘算法

数据挖掘中基于负边界思想的关联规则增量式更新算法.pdf

关联规则隐藏算法如何改进

有哪些用于增量学习的算法

能向我介绍脉冲增量增补算法吗

BLS的增量学习算法介绍

基于生成模型的类增量学习算法

可以帮我写一个只用整数运算的增量PID算法吗

随机森林的增量学习算法

增量式pid算法matlab

最新资源