UPM算法：一种高效的空间划分频繁模式挖掘方法

需积分: 9 132 浏览量更新于2024-08-12 收藏 363KB PDF 举报

"基于空间划分的频繁模式挖掘算法 (2007年) 是一篇关于数据挖掘领域的学术论文，主要探讨了关联规则挖掘中的频繁模式挖掘问题。作者提出了一个名为UPM（UpwardPartitionMine）的新算法，该算法针对经典算法如Apriori和FP-Growth的不足进行了优化，特别是在计算项集频度和处理非频繁项方面。关联规则挖掘是从大型数据库中寻找有意义的关联或依赖关系的过程，这些规则通常形式为“如果A发生，那么B也倾向于发生”。频繁项集是指在数据集中出现次数超过预设阈值的项集合，它是生成关联规则的基础。在Apriori算法中，通过生成和测试候选集来发现频繁项集，这可能导致大量的数据库扫描，效率较低。而FP-Growth算法通过构建FP-树来避免全数据库扫描，但计算项集频度时仍需遍历事务，消耗较多CPU时间和内存。 UPM算法则引入了空间划分的概念，以优化这两部分的计算。它首先建立了基于完全格的描述来界定问题规模，并在此基础上构建了严格的有序FP树。在这样的数据结构上，UPM算法利用空间划分策略计算项集频度，同时采用类似的方法裁剪非频繁项目，从而提高了算法的效率。论文中进行了性能实验，结果显示UPM算法在时间和空间效率上均优于FP-Growth算法。这一改进对于处理大规模数据集的关联规则挖掘任务尤其有益，因为它减少了数据库扫描的次数和内存占用，提升了挖掘速度。关键词：关联规则挖掘、频繁项集、完全格、数据挖掘、UPM算法、FP-Growth算法、空间划分、计算效率。该论文属于自然科学类别，对中国分类号TP311，文献标识码为A，发布于2007年5月的《内蒙古大学学报(自然科学版)》第38卷第3期。在实际应用中，UPM算法的提出有助于提升大数据分析的速度，特别是在零售、电子商务、市场篮子分析等领域，快速挖掘出有价值的关联规则可以为企业决策提供有力支持。此外，这种方法也可以启发其他数据挖掘领域的算法优化，例如聚类分析或分类算法，以提高整体的数据处理能力。"

2007

年

月

第

卷第

期

内蒙古大学学报(自然科学版)

Journal

Inner Mongoha Universlty

文章编号

:1000

一

1638(2007)03-0330-07

May

2007

No.3

基于空间划分的频繁模式挖掘算法.

王国光刘铁英王

鑫

内蒙古大学计算机学院

内蒙古大学教务处，呼和浩特

010021)

摘要:对关联规则挖掘问题建立了完全格描述并给出了问题规模下限，提出了一种基于搜索

空间划分的项集频度计算模型.在对

FP-

树进行改造的基础上提出基于划分思想的频繁项集

挖掘算法

UPM

，算法的项集频度计算和非频繁项目裁剪都基于空间划分的思想-性能实验表

明，与

FP-Growth

算法相比，

UPM

算法的时空效率有较大提高-

关键词:关联规则挖掘

频繁项集;完全格

中固分类号

:TP311

文献标识码

关联规则挖掘(1.

是数据挖掘众多知识类型中最为典型的-种，它的特点是规则的形式简单且易

于理解应用.挖掘关联规则的关键步骤是频繁项集的挖掘.挖掘频繁模式的经典算法有

Apriori

算

法。]和

FP-Growth

算法

ω.

Apriori

算法的优点是能大幅度减小搜索空间.缺点是频繁扫描数据库

FP-growth

算法只需要扫描两次数据库，速度比

Apriori

算法要高出一个数量级

(4)

然而，

FP-Growth

方法在计算项集频度的时{候虔仍然采用逐个事务扫描的方式，计算量非常大的，会占用大量的

CPU

时

间和内存空间，影响算法的效率〔旧

日〕

为提高频度计算的效率，本文首先提出了基于空间划分的计算方法模型，井证明其复杂度达到关

联规则挖掘问题的最低规模.

UPM(Upward

Partition

Mine)

算法的频度计算方式受到划分方法的启

发，其非频繁项的裁剪方法也基于空间划分的思想.算法首先建立严格有序的

树，在

FP-

树上挖掘

所有频繁模式.性能研究表明，

UPM

算法在挖掘速度和内存开销上都明显的优于

FP-Growth

算法.

问题描述与分析

1. 1

帽芙慨念

定义

数据

'ðJj..

D=(O

，l，

，

其中

是数据对象的有限集

合，

是数据属性的有限集合

，

OXl

是对象与属性间的二元关

系.二元组

，

i)ER

表示对象

oEO

具有属性

iε1.

数据属性(值)也称为项目，数据对象又称为事务，可以使用一

个事务标识

TID

和一个项目集合

表示，如图

是由

条事务组成

的数据源

，图

中的

也称为事务数据库.

TID

Llst

of item

TI00

11.

T200

T300

T400

U ,

T500

U ,

T600

T700

11.

T800

T900

图

事务数据库

定义

支持映射

•

, g

(J)=

{。

ε01

'<1

JC1

，

剖，称

(J)

为模式

]Cl

的支持集.若

]Ct

，

则称模式

被事务

所支持，其中

是事务

的项集

.JCl

的绝对支持度为

support(J)

，相对支持度为

(J)

除以

11011

的值.

Fig. 1

Transaction

database

support

(J)

P(i

U i

U …

)=count(

#收稿日期:

2006-09-27

作者简介:王国光(l

981~)

，男(蒙古族)

，内蒙古赤峰人，

2003

级硕士研究生.

下载后可阅读完整内容，剩余6页未读，立即下载

weixin_38562626

粉丝: 3
资源: 937

UPM算法：一种高效的空间划分频繁模式挖掘方法

一种基于图形处理器的频繁模式挖掘算法.pdf

论文研究-基于MapReduce的序列模式挖掘算法.pdf

基于分布式的频繁闭合模式挖掘算法.pdf

ECLAT: Frequent Pattern Mining with Vertical Data Format、

基于Python的数据挖掘算法研究

如何描述基于区域划分的空间构造方法

数据挖掘算法 python

java 实现团伙挖掘算法的算法

fp-growth的对比方法，多写几个

基于划分的聚类算法原理及步骤

最新资源