第
38
卷第
4
期
2012
年
8
月
兰州理工大学学报
Vol
38
No.
4
Aug.
2012
Journal of Lanzhou University of Technology
文章编号
g
1673-5196 ( 2012)
04--0085--04
基于最小支持度阙值动态调整策略的
最频繁项集挖掘算法
陈超
1
,刘才铭
2
(1.
四川理工学院网络管理中心,四川自贡
643000;
2.
乐山师范学院计算机科学学院,四川乐山
614000)
摘要:最频繁项集挖掘是文本关联规则挖掘中研究的重点和难点,它决定了文本关联规则挖掘算法的性能.针对当
前在最频繁项集挖掘方面的不足,改进传统的倒排表,并结合最小支持度阀值动态调整策略,提出一个新的基于改
进的倒排表和集合理论的最频繁项集挖掘算法.另外,给出几个命题和推论,并把它们用于本文算法以提高性能,
最后对所提算法进行实验验证.实验结果表明,该算法的规则有效率和时间性能比常用的两个最频繁项集挖掘算
法(
NApriori
算法,
IntvMatrix
算法)都好.
关键词:频繁项集;关联规则
l
F
倒排表;集合理论
中图分类号:
TP301
文献标识码:
A
Mining algorithm for most frequent item-sets based on dynamic adjustment
strategy
of
minimum support threshold
CHEN
Chao1
, LIU
Cai-ming2
(1.
Network
Management
Center,
Sichuan
University
of
Technology
&
Engineeri
吨,
Zigong
643000,
China;
2.
Department
of
Computer
Science,
Leshan
Normal
University,
Leshan
614000,
China)
Abstract:
The
mining
of
most
frequent
item-sets
is
the
focal
and
difficult
point
of
text
association
rules
mining,
and
it
directly
determines
the
performance
of
the
mining
algorithm
for
text
association
rules.
Aimed
at
shortcomings
existing
in
mining
algorithm
for
most
frequent
item-sets,
the
traditional
inverted
list
was
improved
with
dynamic
adjustment
strategy
of
minimum
support
threshold
and
a
new
mining
algo-
rithm
for
most
frequent
item-sets
was
presented
based
on
improved
inverted
list
and
set
theory.
In
addi-
tion,
several
propositions
and
deductions
were
given
to
improve
the
performance
of
the
proposed
algo-
rithm.
Finally,
the
proposed
algorithm
was
verified
with
experiment.
Its
result
showed
that
this
algorithm
exhibited
better
efficiency
of
rules
and
time
performance
than
Napriori
and
IntvMatrix
which
are
two
com-
mon
mining
‘
algorithms
for
most
frequent
item-sets.
Key
words:
frequent
item-sets;
association
rules;
inverted
list;
set
theory
频繁项集的规模决定了文本关联规则挖掘算法
的性能,从而使得最频繁项集挖掘算法成为文本关
联规则挖掘中的核心研究内容之一.目前,已有众多
学者提出了一些最频繁项集挖掘算法[叫.然而,这
些算法仅通过指定一个固定数
N
来决定频繁项集
的规模,其缺点如下:由于没有采用最小支持度,导
收稿日期:
2012-02-14
基金项目
z
国家自然科学基金(
61103249
),四川省教育厅科研
基金。
1ZB09
日,人工智能四川省重点实验室开放基
金(
2011RYY06)
作者简介
g
陈超(
1980-
),男,四川资中人,讲师,硕士.
致挖掘过程中对那些支持度较小的频繁项集进行处
理,使得挖掘算法性能低下.
文献[
3
]借用最小支持度动态调整策略,提出一
个
NApriori
算法
j
该算法首先指定一个全局最小支
持度,然后用该支持度与每步频繁项集的支持度进
行比较,如果全局最小支持度较小,就令它为当前步
的最小支持度.但是,该算法仍然需要多次扫描事务
数据库,时间复杂度较高.
文献[
4
]提出一个
IntvMatrix
算法,虽然该算
法采用倒排矩阵来快速生成频繁项集,但是该算法
仍然需要多次扫描倒排矩阵,而且倒排矩阵中充满
第
38
卷第
4
期
2012
年
8
月
兰州理工大学学报
Vol
38
No.
4
Aug.
2012
Journal of Lanzhou University of Technology
文章编号
g
1673-5196 ( 2012)
04--0085--04
基于最小支持度阙值动态调整策略的
最频繁项集挖掘算法
陈超
1
,刘才铭
2
(1.
四川理工学院网络管理中心,四川自贡
643000;
2.
乐山师范学院计算机科学学院,四川乐山
614000)
摘要:最频繁项集挖掘是文本关联规则挖掘中研究的重点和难点,它决定了文本关联规则挖掘算法的性能.针对当
前在最频繁项集挖掘方面的不足,改进传统的倒排表,并结合最小支持度阀值动态调整策略,提出一个新的基于改
进的倒排表和集合理论的最频繁项集挖掘算法.另外,给出几个命题和推论,并把它们用于本文算法以提高性能,
最后对所提算法进行实验验证.实验结果表明,该算法的规则有效率和时间性能比常用的两个最频繁项集挖掘算
法(
NApriori
算法,
IntvMatrix
算法)都好.
关键词:频繁项集;关联规则
l
F
倒排表;集合理论
中图分类号:
TP301
文献标识码:
A
Mining algorithm for most frequent item-sets based on dynamic adjustment
strategy
of
minimum support threshold
CHEN
Chao1
, LIU
Cai-ming2
(1.
Network
Management
Center,
Sichuan
University
of
Technology
&
Engineeri
吨,
Zigong
643000,
China;
2.
Department
of
Computer
Science,
Leshan
Normal
University,
Leshan
614000,
China)
Abstract:
The
mining
of
most
frequent
item-sets
is
the
focal
and
difficult
point
of
text
association
rules
mining,
and
it
directly
determines
the
performance
of
the
mining
algorithm
for
text
association
rules.
Aimed
at
shortcomings
existing
in
mining
algorithm
for
most
frequent
item-sets,
the
traditional
inverted
list
was
improved
with
dynamic
adjustment
strategy
of
minimum
support
threshold
and
a
new
mining
algo-
rithm
for
most
frequent
item-sets
was
presented
based
on
improved
inverted
list
and
set
theory.
In
addi-
tion,
several
propositions
and
deductions
were
given
to
improve
the
performance
of
the
proposed
algo-
rithm.
Finally,
the
proposed
algorithm
was
verified
with
experiment.
Its
result
showed
that
this
algorithm
exhibited
better
efficiency
of
rules
and
time
performance
than
Napriori
and
IntvMatrix
which
are
two
com-
mon
mining
‘
algorithms
for
most
frequent
item-sets.
Key
words:
frequent
item-sets;
association
rules;
inverted
list;
set
theory
频繁项集的规模决定了文本关联规则挖掘算法
的性能,从而使得最频繁项集挖掘算法成为文本关
联规则挖掘中的核心研究内容之一.目前,已有众多
学者提出了一些最频繁项集挖掘算法[叫.然而,这
些算法仅通过指定一个固定数
N
来决定频繁项集
的规模,其缺点如下:由于没有采用最小支持度,导
收稿日期:
2012-02-14
基金项目
z
国家自然科学基金(
61103249
),四川省教育厅科研
基金。
1ZB09
日,人工智能四川省重点实验室开放基
金(
2011RYY06)
作者简介
g
陈超(
1980-
),男,四川资中人,讲师,硕士.
致挖掘过程中对那些支持度较小的频繁项集进行处
理,使得挖掘算法性能低下.
文献[
3
]借用最小支持度动态调整策略,提出一
个
NApriori
算法
j
该算法首先指定一个全局最小支
持度,然后用该支持度与每步频繁项集的支持度进
行比较,如果全局最小支持度较小,就令它为当前步
的最小支持度.但是,该算法仍然需要多次扫描事务
数据库,时间复杂度较高.
文献[
4
]提出一个
IntvMatrix
算法,虽然该算
法采用倒排矩阵来快速生成频繁项集,但是该算法
仍然需要多次扫描倒排矩阵,而且倒排矩阵中充满