改进Apriori算法：基于分辨矩阵的含负属性项关联规则挖掘

自然科学

论文

需积分: 8 50 浏览量更新于2024-08-12 收藏 375KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

在2012年的《江西师范大学学报(自然科学版)》第36卷第1期中，王培吉、章树玲和赵玉琳发表了一篇关于"基于分辨矩阵的含负属性项关联规则挖掘"的研究论文。该文章针对Apriori算法存在的问题进行了深入探讨，尤其是候选集和频繁集产生效率低下，以及可能丢失有趣强关联规则的问题。Apriori算法的核心是逐层搜索的迭代方法，它在寻找更高阶的关联规则时，会生成大量的候选集，这在处理大规模数据库时效率低下，并且多次扫描数据库造成大量输入输出开销。传统的Apriori算法对于挖掘含负属性项（即包含否定属性的规则，如“买笔记本 ⇒ 不买台式电脑”）的关联规则并不适用，因为这类规则往往具有更高的实际意义，比如能更准确地描述消费者的购买行为。然而，由于算法设计的局限，这些有价值的规则往往被忽视。为了克服这些问题，研究人员提出了一种基于分辨矩阵的改进算法。这种方法不再依赖于生成候选集，而是直接从原始数据中一次性计算出频繁集，显著提高了效率。同时，它能够有效过滤掉无趣的关联规则，优先挖掘那些支持度和置信度符合阈值，且包含负属性项的有趣规则，从而提高关联规则挖掘的质量和有效性。通过这种方法，论文提供了一个实际案例来演示这种改进算法的应用，证明了它在处理含负属性项关联规则挖掘上的优势。作者王培吉，作为主要贡献者，是内蒙古科技大学数理与生物工程学院的副教授，专注于数据库和数据挖掘领域的研究，他的工作得到了国家自然科学基金（81060238）的支持。这篇文章的主要贡献在于提出了一种创新的关联规则挖掘策略，不仅解决了传统Apriori算法的效率问题，还提升了挖掘结果的质量，这对于理解和预测用户行为，特别是在商业智能和市场分析领域具有重要意义。

资源详情

资源推荐

第 36 卷

第 1 期江西师范大学学报(自然科学版) Vol. 36 No.1

2012 年 1 月

Journal of Jiangxi Normal University (Natural Science)

Jan. 2012

收稿日期: 2011-09-14

基金项目: 国家自然科学基金(81060238)资助项目.

作者简介: 王培吉(1968-), 男, 内蒙古包头人, 副教授, 硕士, 主要从事数据库、数据挖掘方面的研究.

文章编号: 1000-5862(2012)01-0095-04

基于分辨矩阵的含负属性项关联规则挖掘

王培吉

, 章树玲

, 赵玉琳

(1.内蒙古科技大学数理与生物工程学院, 内蒙古包头 014010; 2. 内蒙古第一机械集团公司二分公司, 内蒙古包头 014032)

摘要: Apriori 算法存在候选集、频繁集产生效率低, 丢失有趣强关联规则等问题, 提出一种基于分辨矩阵可

以采掘含负属性项强关联规则的改进算法, 最后给出一个实际例子实现该算法.

关键词:

数据挖掘; 分辨矩阵; 兴趣度; 关联规则

中图分类号: TP 301.6 文献标志码: A

0 引言

Apriori 算法是由 R . Agrawal 和 R. Srikant

[1-2]

提出

的最有影响的挖掘关联规则频繁项集的算法, Apriori

算法使用逐层搜索的迭代方法

[3]

, k-项集用于寻找

(k+1)-项集, 找每个 L

需先产生候选项集, 再通过扫

描数据库来计算候选项集的支持计数, 消除非频繁项

集, 当数据库较大时, 会产生庞大的候选项集, 且因

多次扫描数据库将导致不可低估的输入输出开销

[4]

另外, 基于 Apriori 算法进行关联规则挖掘, 可

能生成无用关联规则, 如关联规则“买台式电脑

⇒

买笔记本”的支持度 37. 5%、置信度 75%分别大于最

小支持度、最小置信度, 这样可得规则: “买台式电

脑

⇒ 买笔记本”, 但同时得到: “88%的人肯定会买

笔记本”, 所以生成的此规则是无用关联规则, 反而

含负属性项关联规则: “买笔记本

⇒ 不买台式电

脑”(其支持度和置信度分别为 50%、57%)更为合理

、

有用, 而传统的算法对挖掘含负属性项的关联规则

是无能为力的.

本文提出一种改进的关联规则挖掘方法—基于

0-1 矩阵的含负属性项的关联规则挖掘模式, 使用

这种方法只对数据库扫描一次, 无需候选集, 即可

得到频繁集, 同时可过滤无趣关联规则, 产生含负

属性项的有趣关联规则, 使获得的关联规则更有

效、合理.

1 基本概念

1.1 事务数据库中的项集及关联规则

设项的集合 I={i

, i

,…, I

}, 其子集称为项集.

项集中所包含的元素(项)的个数称为项集长度, 项集

长度等于 K 的项集叫做 K-项集. 所有含有某个项集的

事务数, 叫做该项集的支持计数.

设事务数据库 D={T

, T

…, T

}, 其中每个事务

⊂ I, (i=1, 2,…, n)每个事务有唯一标识符 TID, A 是

项集, 事务 T

包含项集 A 当且仅当 A ⊂T

. 当 A ⊂ I,

⊂ I 并且 A∩B=

∅

时, 蕴涵式 A ⇒ B 叫做事务数据

库 D 中的关联规则

[3]

1.2 支持度、置信度及强关联规则

给定事务数据库 D 中的关联规则 A

⇒B, D 中事

务同时包含 A、B 的百分比 S 称为关联规则 A

⇒B

在事务数据库 D 中的支持度(support); 包含项集 A

的事务中同时包含项集 B 的百分比 C 称为关联规则

⇒B 在事务数据库 D 中的置信度(confidence).

当关联规则 A

⇒B 在事务数据库 D 中的支持

度、置信度分别大于等于各自的阈值时, 认为关联

规则 A

⇒B 是有趣关联规则, 此两值叫做关联规则

⇒B 在事务数据库 D 中成立的最小支持度和最小

置信度.

设关联规则 A

⇒ B 在事务数据库 D 中成立的最

小支持度和最小置信度分别为sup

min

和 conf

min,

事务

数据库 D 中事务总数为|D|.

当项集的支持计数大于或等于 sup

min

|D|时,

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38595690

粉丝: 6
资源: 942

改进Apriori算法：基于分辨矩阵的含负属性项关联规则挖掘

基于矩阵的关联规则挖掘算法

基于矩阵的关联规则挖掘算法.pdf

论文研究-基于项权值变化的矩阵加权关联规则挖掘.pdf

关联规则挖掘电影推荐的流程

中医证型关联规则挖掘python

使用PYthon实现基于关联规则挖掘的图书推荐代码示例

使用pandas库进行关联规则挖掘

关联规则挖掘 matlab

1. 完成Apriori算法对products数据集的关联规则挖掘

用python代码完成Apriori算法对products数据集的关联规则挖掘

实验二关联规则挖掘 动手实现 apriori 算法

基于关联规则的图书推荐模型

利用MATLAB实现关联规则挖掘案例

对UCI的一个数据集，编程采用关联规则挖掘算法获得针对数据的规则，并显示相关规则。

关联规则代码matlab

如何使用 arules 库，挖掘关联规则,

matlab对数据实现关联规则数据挖掘的代码

jupyter notebook 乳腺癌数据集关联规则

写一个熟悉关联规则挖掘Apriori算法基本原理、能使用Python语言实现Apriori算法，并将其应用到实际案例中的实验小结

最新资源

实验二关联规则挖掘动手实现 apriori 算法