第 36 卷
第 1 期 江西师范大学学报(自然科学版) Vol. 36 No.1
2012 年 1 月
Journal of Jiangxi Normal University (Natural Science)
Jan. 2012
收稿日期: 2011-09-14
基金项目: 国家自然科学基金(81060238)资助项目.
作者简介: 王培吉(1968-), 男, 内蒙古包头人, 副教授, 硕士, 主要从事数据库、数据挖掘方面的研究.
文章编号: 1000-5862(2012)01-0095-04
基于分辨矩阵的含负属性项关联规则挖掘
王培吉
1
, 章树玲
1
, 赵玉琳
2
(1.内蒙古科技大学数理与生物工程学院, 内蒙古 包头 014010; 2. 内蒙古第一机械集团公司二分公司, 内蒙古 包头 014032)
摘要: Apriori 算法存在候选集、频繁集产生效率低, 丢失有趣强关联规则等问题, 提出一种基于分辨矩阵可
以采掘含负属性项强关联规则的改进算法, 最后给出一个实际例子实现该算法.
关键词:
数据挖掘; 分辨矩阵; 兴趣度; 关联规则
中图分类号: TP 301.6 文献标志码: A
0 引言
Apriori 算法是由 R . Agrawal 和 R. Srikant
[1-2]
提出
的最有影响的挖掘关联规则频繁项集的算法, Apriori
算法使用逐层搜索的迭代方法
[3]
, k-项集用于寻找
(k+1)-项集, 找每个 L
K
需先产生候选项集, 再通过扫
描数据库来计算候选项集的支持计数, 消除非频繁项
集, 当数据库较大时, 会产生庞大的候选项集, 且因
多次扫描数据库将导致不可低估的输入输出开销
[4]
.
另外, 基于 Apriori 算法进行关联规则挖掘, 可
能生成无用关联规则, 如关联规则“买台式电脑
⇒
买笔记本”的支持度 37. 5%、置信度 75%分别大于最
小支持度、最小置信度, 这样可得规则: “买台式电
脑
⇒ 买笔记本”, 但同时得到: “88%的人肯定会买
笔记本”, 所以生成的此规则是无用关联规则, 反而
含负属性项关联规则: “买笔记本
⇒ 不买台式电
脑”(其支持度和置信度分别为 50%、57%)更为合理
、
有用, 而传统的算法对挖掘含负属性项的关联规则
是无能为力的.
本文提出一种改进的关联规则挖掘方法—基于
0-1 矩阵的含负属性项的关联规则挖掘模式, 使用
这种方法只对数据库扫描一次, 无需候选集, 即可
得到频繁集, 同时可过滤无趣关联规则, 产生含负
属性项的有趣关联规则, 使获得的关联规则更有
效、合理.
1 基本概念
1.1 事务数据库中的项集及关联规则
设项的集合 I={i
1
, i
2
,…, I
m
}, 其子集称为项集.
项集中所包含的元素(项)的个数称为项集长度, 项集
长度等于 K 的项集叫做 K-项集. 所有含有某个项集的
事务数, 叫做该项集的支持计数.
设事务数据库 D={T
1
, T
2,
…, T
n
}, 其中每个事务
T
i
⊂ I, (i=1, 2,…, n)每个事务有唯一标识符 TID, A 是
项集, 事务 T
i
包含项集 A 当且仅当 A ⊂T
i
. 当 A ⊂ I,
B
⊂ I 并且 A∩B=
时, 蕴涵式 A ⇒ B 叫做事务数据
库 D 中的关联规则
[3]
.
1.2 支持度、置信度及强关联规则
给定事务数据库 D 中的关联规则 A
⇒B, D 中事
务同时包含 A、B 的百分比 S 称为关联规则 A
⇒B
在事务数据库 D 中的支持度(support); 包含项集 A
的事务中同时包含项集 B 的百分比 C 称为关联规则
A
⇒B 在事务数据库 D 中的置信度(confidence).
当关联规则 A
⇒B 在事务数据库 D 中的支持
度、置信度分别大于等于各自的阈值时, 认为关联
规则 A
⇒B 是有趣关联规则, 此两值叫做关联规则
A
⇒B 在事务数据库 D 中成立的最小支持度和最小
置信度.
设关联规则 A
⇒ B 在事务数据库 D 中成立的最
小支持度和最小置信度分别为sup
min
和 conf
min,
事务
数据库 D 中事务总数为|D|.
当项集的支持计数大于或等于 sup
min
|D|时,