动态调整最小支持度的频繁项集挖掘算法

需积分: 48 72 浏览量更新于2024-08-13 收藏 296KB PDF 举报

"基于最小支持度阈值动态调整策略的最频繁项集挖掘算法 (2012年)，陈超、刘才铭" 在文本挖掘和数据挖掘领域，关联规则学习是一种重要的方法，它用于发现数据集中不同项目之间的有趣关系。最频繁项集挖掘是关联规则学习的一个关键步骤，其目标是从大量数据中找出频繁出现的项目集合。这些集合随后可以用来生成有趣的关联规则。本篇论文发表于2012年，作者陈超和刘才铭针对传统最频繁项集挖掘算法的不足进行了改进。传统的倒排表是一种在信息检索中用于快速定位文档中特定词汇出现位置的数据结构。论文中，作者改进了这一数据结构，以更高效地处理文本数据。同时，他们引入了一个最小支持度阈值动态调整策略，这是一个优化策略，可以根据挖掘过程中的实际数据分布情况动态调整最小支持度的阈值，以减少计算量并提高算法效率。论文中还提出了几个数学命题和推论，这些理论成果被应用于提出的挖掘算法中，以进一步提升其性能。通过对算法进行实验验证，结果显示，新算法在规则有效率和时间性能上均优于常见的最频繁项集挖掘算法，如Apriori算法和IntvMatrix算法。 Apriori算法是一种经典的挖掘频繁项集的算法，它采用逐层生成候选集并剪枝的方式来减少计算量。然而，Apriori算法在处理大规模数据时可能会遇到效率问题，因为它需要多次扫描数据库。相比之下，IntvMatrix算法可能使用矩阵操作来表示和计算频繁项集，但同样可能在处理复杂数据时面临效率挑战。陈超和刘才铭的算法通过改进倒排表和动态调整最小支持度阈值，有效地解决了这两个问题。动态阈值调整使得算法能够根据实际情况自我优化，避免了因固定阈值导致的过度计算或规则丢失。此外，利用集合理论的性质，算法进一步减少了计算复杂性，提高了挖掘效率。总结来说，这篇论文提供了一种创新的最频繁项集挖掘方法，该方法在挖掘效率和规则质量上均有所提升，特别是在处理大型文本数据集时，这种优势更为明显。这不仅对于文本关联规则挖掘有直接的应用价值，也为其他类型的数据挖掘任务提供了有价值的参考和启示。

第

卷第

期

2012

年

月

兰州理工大学学报

Vol

No.

Aug.

2012

Journal of Lanzhou University of Technology

文章编号

1673-5196 ( 2012)

04--0085--04

基于最小支持度阙值动态调整策略的

最频繁项集挖掘算法

陈超

，刘才铭

(1.

四川理工学院网络管理中心，四川自贡

643000;

乐山师范学院计算机科学学院，四川乐山

614000)

摘要：最频繁项集挖掘是文本关联规则挖掘中研究的重点和难点，它决定了文本关联规则挖掘算法的性能．针对当

前在最频繁项集挖掘方面的不足，改进传统的倒排表，并结合最小支持度阀值动态调整策略，提出一个新的基于改

进的倒排表和集合理论的最频繁项集挖掘算法．另外，给出几个命题和推论，并把它们用于本文算法以提高性能，

最后对所提算法进行实验验证．实验结果表明，该算法的规则有效率和时间性能比常用的两个最频繁项集挖掘算

法（

NApriori

算法，

IntvMatrix

算法）都好．

关键词：频繁项集；关联规则

倒排表；集合理论

中图分类号：

TP301

文献标识码：

Mining algorithm for most frequent item-sets based on dynamic adjustment

strategy

minimum support threshold

CHEN

Chao1

, LIU

Cai-ming2

(1.

Network

Management

Center,

Sichuan

University

Technology

Engineeri

吨，

Zigong

643000,

China;

Department

Computer

Science,

Leshan

Normal

University,

Leshan

614000,

China)

Abstract:

The

mining

most

frequent

item-sets

the

focal

and

difficult

point

text

association

rules

mining,

and

directly

determines

the

performance

the

mining

algorithm

for

text

association

rules.

Aimed

shortcomings

existing

mining

algorithm

for

most

frequent

item-sets,

the

traditional

inverted

list

was

improved

with

dynamic

adjustment

strategy

minimum

support

threshold

and

new

mining

algo-

rithm

for

most

frequent

item-sets

was

presented

based

improved

inverted

list

and

set

theory.

addi-

tion,

several

propositions

and

deductions

were

given

improve

the

performance

the

proposed

algo-

rithm.

Finally,

the

proposed

algorithm

was

verified

with

experiment.

Its

result

showed

that

this

algorithm

exhibited

better

efficiency

rules

and

time

performance

than

Napriori

and

IntvMatrix

which

are

two

com-

mon

mining

‘

algorithms

for

most

frequent

item-sets.

Key

words:

frequent

item-sets;

association

rules;

inverted

list;

set

theory

频繁项集的规模决定了文本关联规则挖掘算法

的性能，从而使得最频繁项集挖掘算法成为文本关

联规则挖掘中的核心研究内容之一．目前，已有众多

学者提出了一些最频繁项集挖掘算法［叫．然而，这

些算法仅通过指定一个固定数

来决定频繁项集

的规模，其缺点如下：由于没有采用最小支持度，导

收稿日期：

2012-02-14

基金项目

国家自然科学基金（

61103249

），四川省教育厅科研

基金。

1ZB09

日，人工智能四川省重点实验室开放基

金（

2011RYY06)

作者简介

陈超（

1980-

），男，四川资中人，讲师，硕士．

致挖掘过程中对那些支持度较小的频繁项集进行处

理，使得挖掘算法性能低下．

文献［

］借用最小支持度动态调整策略，提出一

个

NApriori

算法

该算法首先指定一个全局最小支

持度，然后用该支持度与每步频繁项集的支持度进

行比较，如果全局最小支持度较小，就令它为当前步

的最小支持度．但是，该算法仍然需要多次扫描事务

数据库，时间复杂度较高．

文献［

］提出一个

IntvMatrix

算法，虽然该算

法采用倒排矩阵来快速生成频繁项集，但是该算法

仍然需要多次扫描倒排矩阵，而且倒排矩阵中充满

第

卷第

期

2012

年

月

兰州理工大学学报

Vol

No.

Aug.

2012

Journal of Lanzhou University of Technology

文章编号

1673-5196 ( 2012)

04--0085--04

基于最小支持度阙值动态调整策略的

最频繁项集挖掘算法

陈超

，刘才铭

(1.

四川理工学院网络管理中心，四川自贡

643000;

乐山师范学院计算机科学学院，四川乐山

614000)

摘要：最频繁项集挖掘是文本关联规则挖掘中研究的重点和难点，它决定了文本关联规则挖掘算法的性能．针对当

前在最频繁项集挖掘方面的不足，改进传统的倒排表，并结合最小支持度阀值动态调整策略，提出一个新的基于改

进的倒排表和集合理论的最频繁项集挖掘算法．另外，给出几个命题和推论，并把它们用于本文算法以提高性能，

最后对所提算法进行实验验证．实验结果表明，该算法的规则有效率和时间性能比常用的两个最频繁项集挖掘算

法（

NApriori

算法，

IntvMatrix

算法）都好．

关键词：频繁项集；关联规则

倒排表；集合理论

中图分类号：

TP301

文献标识码：

Mining algorithm for most frequent item-sets based on dynamic adjustment

strategy

minimum support threshold

CHEN

Chao1

, LIU

Cai-ming2

(1.

Network

Management

Center,

Sichuan

University

Technology

Engineeri

吨，

Zigong

643000,

China;

Department

Computer

Science,

Leshan

Normal

University,

Leshan

614000,

China)

Abstract:

The

mining

most

frequent

item-sets

the

focal

and

difficult

point

text

association

rules

mining,

and

directly

determines

the

performance

the

mining

algorithm

for

text

association

rules.

Aimed

shortcomings

existing

mining

algorithm

for

most

frequent

item-sets,

the

traditional

inverted

list

was

improved

with

dynamic

adjustment

strategy

minimum

support

threshold

and

new

mining

algo-

rithm

for

most

frequent

item-sets

was

presented

based

improved

inverted

list

and

set

theory.

addi-

tion,

several

propositions

and

deductions

were

given

improve

the

performance

the

proposed

algo-

rithm.

Finally,

the

proposed

algorithm

was

verified

with

experiment.

Its

result

showed

that

this

algorithm

exhibited

better

efficiency

rules

and

time

performance

than

Napriori

and

IntvMatrix

which

are

two

com-

mon

mining

‘

algorithms

for

most

frequent

item-sets.

Key

words:

frequent

item-sets;

association

rules;

inverted

list;

set

theory

频繁项集的规模决定了文本关联规则挖掘算法

的性能，从而使得最频繁项集挖掘算法成为文本关

联规则挖掘中的核心研究内容之一．目前，已有众多

学者提出了一些最频繁项集挖掘算法［叫．然而，这

些算法仅通过指定一个固定数

来决定频繁项集

的规模，其缺点如下：由于没有采用最小支持度，导

收稿日期：

2012-02-14

基金项目

国家自然科学基金（

61103249

），四川省教育厅科研

基金。

1ZB09

日，人工智能四川省重点实验室开放基

金（

2011RYY06)

作者简介

陈超（

1980-

），男，四川资中人，讲师，硕士．

致挖掘过程中对那些支持度较小的频繁项集进行处

理，使得挖掘算法性能低下．

文献［

］借用最小支持度动态调整策略，提出一

个

NApriori

算法

该算法首先指定一个全局最小支

持度，然后用该支持度与每步频繁项集的支持度进

行比较，如果全局最小支持度较小，就令它为当前步

的最小支持度．但是，该算法仍然需要多次扫描事务

数据库，时间复杂度较高．

文献［

］提出一个

IntvMatrix

算法，虽然该算

法采用倒排矩阵来快速生成频繁项集，但是该算法

仍然需要多次扫描倒排矩阵，而且倒排矩阵中充满

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38687928

粉丝: 2
资源: 950

动态调整最小支持度的频繁项集挖掘算法

论文研究-基于改进倒排表和集合的最频繁项集挖掘算法.pdf

基于改进倒排表和集合的最频繁项集挖掘算法 (2012年)

基于关联矩阵的频繁项集挖掘算法 (2012年)

基于分辨矩阵的含负属性项关联规则挖掘 (2012年)

关联规则DHP算法的研究与分析 (2012年)

一种改进的APRIORI算法在电子商务中的应用 (2012年)

关联规则数据挖掘技术在儿童肺炎用药选择的应用.pdf

改进Apriori算法在图书推荐中的应用研究

基于springboot共享经济背景下校园闲置物品交易平台源码数据库文档.zip

基于WoodandBerry1和非耦合控制WoodandBerry2来实现控制木材和浆果蒸馏柱控制Simulink仿真.rar

最新资源