BM-PrefixSpan算法：高效序列模式挖掘

需积分: 5 177 浏览量更新于2024-08-08 1 收藏 752KB PDF 举报

"这篇论文是2013年由张巍、刘峰和滕少华发表在《广东工业大学学报》上的研究，属于工程技术领域，主要关注数据挖掘中的序列模式挖掘问题。文章提出了一种改进的PrefixSpan算法，称为BM-PrefixSpan，该算法结合了PrefixSpan和SPAM算法的特点，旨在解决传统方法中计算量大和存储空间需求高的问题。通过应用Bitmap数据结构，BM-PrefixSpan能有效避免数据库的重复扫描，并通过PFPBM（PrefixofFirstPositiononBitMap）表记录序列中每个项的首次出现位置，从而提高挖掘效率。实验结果显示，BM-PrefixSpan算法在挖掘序列模式时表现出更快的速度和更高的性能。" 正文：序列模式挖掘是数据挖掘领域的一个重要分支，它旨在发现数据序列中的频繁模式或趋势。在许多应用中，如商业智能、生物信息学和网络日志分析，序列数据的处理是至关重要的。然而，由于序列数据的复杂性和规模，挖掘过程通常面临着计算资源的挑战，包括计算时间和存储空间。传统的PrefixSpan算法是一种高效的序列模式挖掘工具，其特点是不产生候选模式，而是通过前缀投影的方式递归地探索数据。尽管如此，PrefixSpan仍然需要大量的存储空间来保存中间结果，且可能需要多次扫描数据库，这在处理大规模序列数据时会变得低效。为了优化这一情况，论文提出的BM-PrefixSpan算法引入了Bitmap数据结构。Bitmap，也称为位图，是一种紧凑的数据结构，用于表示一系列离散值的集合，通过位运算快速查询和操作。在BM-PrefixSpan中，Bitmap被用来记录序列中每个项第一次出现的位置，显著减少了对数据库的重复扫描，从而降低了计算量。 PFPBM表是BM-PrefixSpan算法的核心组成部分。这个表有效地存储了每个项在Bitmap中的首次出现位置，使得算法能够快速定位和访问这些信息，进一步加速了挖掘过程。通过这种方式，算法能够在保持高效的同时，节省了存储空间。实验结果证明了BM-PrefixSpan算法的有效性，它成功地综合了PrefixSpan的简洁性和SPAM（Simple Pattern Growth using Bitmaps）算法的位运算优势。相比原版的PrefixSpan，新算法在挖掘速度和内存效率上都有显著提升，对于处理大规模序列数据具有更高的实用性。总结来说，这篇2013年的研究提供了一个创新的解决方案，即BM-PrefixSpan算法，以应对序列模式挖掘中的计算效率和存储效率问题。这种方法不仅在理论上有重要的贡献，而且在实际应用中也具有广泛的价值，特别是对于那些需要处理大量序列数据的系统。

第  卷第  期

 年  月

   

广东工业大学学报

Journal of Guangdong University of Technology

   

 Vol No

December 

收稿日期 

基金项目 教育部重点实验室基金资助项目广东省自然科学基金资助项目 

广东省科技计划项目B广州市科技计划项目J J韶关市科技计划项目

CXY C

作者简介 张巍女副教授主要研究方向为数据挖掘协同计算

doi jissn

改进的 PrefixSpan 算法及其在序列

模式挖掘中的应用

张巍刘峰 滕少华

广东工业大学计算机学院 广东广州 

摘要 由于序列模式挖掘需要花费大量计算时间并需要占用大量存储空间减少计算量节省存储空间开销成为

序列模式挖掘的关键因 PrefixSpan 算法不产生候选而适当应用 Bitmap 数据结构可避免重复扫描数据库基于

此本文提出了 BMPrefixSpan 算法用于序列模式挖掘设计并构造了 PFPBMPrefix of First Position on BitMap表

用于记录序列中的每个项在位图中第  次出现的位置实验结果表明BMPrefixSpan 算法综合了 PrefixSpan 和

SPAM 算法的优点能够更快更好地挖掘出序列模式

关键词 序列模式前缀投影序列模式挖掘序列模式挖掘位图数据挖掘

中图分类号 TP文献标志码 A文章编号 

Improved Prefixspan Algorithm and Its Application in

Sequential Pattern Mining

Zhang Wei Liu Feng Teng Shaohua

School of Computers Guangdong University of Technology Guangzhou  China

Abstract Because sequential pattern mining needs a lot of computing time and storage space how to re

duce the amount of calculation and storage space becomes the key of the sequential pattern mining algo

rithmCombining the PrefixSpan algorithm with Bitmap data structure this text proposes an improved se

quential pattern mining algorithm BMPrefixSpanThe PFPBM Prefix of First Position on BitMap table

was designed and implementedWhen a new item appeared in a sequence it was recorded in the PFPBM

tableThe experimental results show that the BMprefixspan algorithm mines sequential patterns faster

and better than others

Key words sequence pattern PrefixSpan  Prefixprojected Sequential Pattern Mining SPAM  Se

quence Pattern Mining bitmap data mining

序列模式挖掘Sequence Pattern Mining是挖掘

频繁出现的有序事件或子序列



序列模式挖掘作

为数据挖掘的一个研究课题已应用于很多领域如

客户购买行为模式分析欺诈行为检测Web 访问模

式预测生物工程DNA 序列分析自然灾害预测

疾病诊断等通过运用序列模式挖掘可以发现隐藏

在数据中的频繁模式或知识从而辅助决策避免损

失以获得更大的经济与社会效益序列模式挖掘已

逐步进入人们的数据挖掘应用中

Agrawal 等



对超市数据进行分析时提出了序

列模式挖掘的概念给出了基于 Apriori 特性的 Apri

oriSome



AprioriAll



和 DynamicSome



 种序列

模式挖掘算法Srikant



提出了泛化序列模式 GSP

Generalized Sequential Pattern 算法 类 Apriori 算

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_38724370

粉丝: 5
资源: 931

BM-PrefixSpan算法：高效序列模式挖掘

序列模式挖掘的PrefixSpan算法源代码

大数据-算法-改进的PrefixSpan算法在入侵检测中的应用.pdf

PrefixSpan算法解析与序列模式挖掘

prefixspan序列模式挖掘算法的源代码

序列模式挖掘：PrefixSpan算法解析

PrefixSpan算法解析：挖掘序列模式的核心方法

序列模式挖掘：Apriori与FreeSpan/PrefixSpan算法详解

PrefixSpan：高效挖掘序列模式的新方法

一个序列数据库，用PrefixSpan算法，挖掘频繁序列

大数据与数据挖掘技术 数据挖掘算法应用-序列模式数据额挖掘算法简介 共28页.ppt

最新资源

大数据与数据挖掘技术数据挖掘算法应用-序列模式数据额挖掘算法简介共28页.ppt