优化的posCloSpan算法：无候选序列的闭合序列模式挖掘

需积分: 13 62 浏览量更新于2024-08-13 收藏 1.77MB PDF 举报

本文档探讨了"基于二级索引结构无候选项闭合序列模式挖掘算法"（2012年），针对CloSpan算法在挖掘闭合序列模式过程中存在的问题进行改进。CloSpan算法通常分为两阶段，第一阶段需要维护候选序列，但没有充分利用项的位置信息，这可能导致数据库的重复扫描和计算复杂度增加。文档提出了一种新的算法——posCloSpan，旨在解决这些问题。 posCloSpan算法的关键在于利用二级索引结构进行高效检索，通过向前剪枝策略来避免不必要的数据库扫描。它不再保存候选序列，而是通过检测超序索引表和子序索引表，直接对非闭合序列进行修剪，从而优化了搜索过程。这种方法显著减少了时间和空间的开销，特别是在处理长序列和存在大量重复投影数据库的数据源时效果更为明显。算法的创新之处在于其对数据组织方式的优化，通过二级索引结构提高了模式挖掘的效率，特别是对于那些数据密集型和计算密集型任务，这种改进具有实际应用价值。此外，该研究还关注了团队合作的重要性，包括四位作者的专业背景，如缪裕青教授专注于数据挖掘和生物数据挖掘，吴孔玲硕士在数据挖掘和序列模式挖掘领域有所专长，朱晓雁硕士则在管理学和营销管理方面有研究，而张锦杏硕士则专注于数据挖掘和云计算技术。总结来说，这篇论文主要贡献了一个针对特定挑战的高效闭合序列模式挖掘算法，不仅提升了性能，还在实践中展示了在处理大规模和复杂数据集时的有效性。这对于数据挖掘领域的研究人员和工程师来说，提供了一个实用的技术参考，并可能推动该领域进一步优化和扩展。

　　收稿日期：２０１２０３１４；修回日期：２０１２０４２４　　基金项目：广西可信软件重点实验室开放基金资助项目；广西研究生科研创新资助项目

（２０１１１０５９５０８１２Ｍ２２）

作者简介：缪裕青（１９６６），女，副教授，博士，主要研究方向为数据挖掘、生物数据挖掘（ｍｉａｏｙｕｑｉｎｇ＠ｇｕｅｔｅｄｕｃｎ）；吴孔玲（１９８６），女，硕士，

主要研究方向为数据挖掘、序列模式挖掘；朱晓雁（１９７９），女，硕士，主要研究方向为管理学、营销管理；张锦杏（１９８６），男，硕士，主要研究方向为

数据挖掘、云计算．

基于二级索引结构无候选项闭合

序列模式挖掘算法



缪裕青，吴孔玲，朱晓雁，张锦杏

（桂林电子科技大学计算机科学与工程学院，广西桂林５４１００４）

摘　要：针对ＣｌｏＳｐａｎ算法分两个阶段挖掘闭合序列模式中第一阶段需要保持候选序列且未充分利用项的位置

信息、存在对数据库重复扫描和计算大小的不足，提出了ｐｏｓＣｌｏＳｐａｎ算法。算法通过对二级索引结构进行检索

实现向前剪枝，避免数据库重复扫描以及对超序索引表、子序索引表的检测，实现非闭合序列的修剪，无须保存

候选序列。实验结果证明，算法在处理较长序列以及存在大量重复投影数据库的数据源时，有效降低了时间上

的开销。

关键词：数据挖掘；序列模式挖掘；闭合序列；ＣｌｏＳｐａｎ

中图分类号：ＴＰ３９１　　　文献标志码：Ａ　　　文章编号：１００１３６９５（２０１２）１０３６７２０５

ｄｏｉ：１０３９６９／ｊｉｓｓｎ１００１３６９５２０１２１００１８

Ｃｌｏｓｅｄｓｅｑｕｅｎｔｉａｌｐａｔｔｅｒｎｍｉｎｉｎｇａｌｇｏｒｉｔｈｍｗｉｔｈｎｏｃａｎｄｉｄａｔｅ

ｓｅｑｕｅｎｃｅｂａｓｅｄｏｎｔｗｏｌｅｖｅｌｉｎｄｅｘｓｔｒｕｃｔｕｒｅ

ＭＩＡＯＹｕｑｉｎｇ，ＷＵＫｏｎｇｌｉｎｇ，ＺＨＵＸｉａｏｙａｎ，ＺＨＡＮＧＪｉｎｘｉｎｇ

（ＳｃｈｏｏｌｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ＆Ｅｎｇｉｎｅｅｒｉｎｇ，ＧｕｉｌｉｎＵｎｉｖｅｒｓｉｔｙｏｆＥｌｅｃｔｒｏｎｉｃＴｅｃｈｎｏｌｏｇｙ，ＧｕｉｌｉｎＧｕａｎｇｘｉ５４１００４，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：ＡｉｍｉｎｇａｔｔｈｅｄｅｆｅｃｔｓｏｆＣｌｏＳｐａｎａｌｇｏｒｉｔｈｍｗｈｅｎｍｉｎｉｎｇｃｌｏｓｅｄｓｅｑｕｅｎｔｉａｌｐａｔｔｅｒｎｔｈａｔｉｔｎｅｅｄｓｔｏｍａｉｎｔａｉｎｔｈｅｃａｎ

ｄｉｄａｔｅｓｅｑｕｅｎｃｅｓｉｎｔｈｅｆｉｒｓｔｓｔａｇｅａｎｄｄｏｎｏｔｍａｋｅｆｕｌｌｕｓｅｏｆｔｈｅｌｏｃａｔｉｏｎｉｎｆｏｒｍａｔｉｏｎ，ｅｘｉｓｔｓｒｅｐｅａｔｅｄｌｙｓｃａｎｎｉｎｇｄａｔａｂａｓｅｃａｌ

ｃｕｌａｔｉｎｇｄａｔａｂａｓｅｓｉｚｅ，ｔｈｉｓｐａｐｅｒｐｕｔｆｏｒｗａｒｄｐｏｓＣｌｏＳｐａｎａｌｇｏｒｉｔｈｍ．Ｂｙｄｅｔｅｃｔｉｎｇｔｈｅｔｗｏｌｅｖｅｌｉｎｄｅｘｓｔｒｕｃｔｕｒｅ，ｔｈｅａｌｇｏｒｉｔｈｍ

ａｃｈｉｅｖｅｄｆｏｒｗａｒｄｐｒｕｎｉｎｇ

，ａｖｏｉｄｅｄｒｅｐｅａｔｅｄｌｙｓｃａｎｎｉｎｇｄａｔａｂａｓｅ．Ａｔｔｈｅｓａｍｅｔｉｍｅ，ｉｔｔｒｉｍｅｄｎｏｎｃｌｏｓｅｄｓｅｑｕｅｎｃｅｓｔｈｒｏｕｇｈ

ｄｅｔｅｃｔｉｎｇｓｕｐｓｅｑｕｅｎｃｅｉｎｄｅｘｔａｂｌｅａｎｄｓｕｂｓｅｑｕｅｎｃｅｉｎｄｅｘｔａｂｌｅ，ｗｉｔｈｏｕｔｓａｖｉｎｇｃａｎｄｉｄａｔｅｓｅｑｕｅｎｃｅ．Ｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔ

ｓｈｏｗｓｔｈａｔｔｈｅａｌｇｏｒｉｔｈｍｃａｎｅｆｆｅｃｔｉｖｅｌｙｒｅｄｕｃｅｔｈｅｔｉｍｅｃｏｎｓｕｍｐｔｉｏｎｉｎｄｅａｌｉｎｇｗｉｔｈｌｏｎｇｅｒｓｅｑｕｅｎｃｅａｎｄｔｈｅｄａｔａｓｏｕｒｃｅｔｈａｔ

ｈａｓａｌａｒｇｅｎｕｍｂｅｒｏｆｄｕｐｌｉｃａｔｅｄｐｒｏｊｅｃｔｄａｔａｂａｓｅ．

Ｋｅｙｗｏｒｄｓ：ｄａｔａｍｉｎｉｎｇ；ｓｅｑｕｅｎｔｉａｌｐａｔｔｅｒｎｍｉｎｉｎｇ；ｃｌｏｓｅｄｓｅｑｕｅｎｃｅ；ＣｌｏＳｐａｎ

　引言

序列模式挖掘算法ＡｐｒｉｏｒＡｌｌ

［１］

、ＳＰＡＤＥ

［２］

、ＳＰＡＭ

［３］

、Ｐｒｅ

ｆｉｘＳｐａｎ

［４］

等都是在数据库中挖掘出所有满足最小支持度的频

繁序列，并且对由短序列组成的数据库取得了很好性能。但

是当支持度很低或挖掘长序列数据库时，频繁序列会呈指数

级增长，算法性能大大降低；同时大量的挖掘结果不仅导致

存储空间的巨大消耗，也降低了从挖掘结果中提取有用信息

的效率。如何压缩挖掘结果，降低存储空间成为研究热点，

于是提出了闭合序列模式挖掘。闭合序列模式是指在支持

度相同的条件下，不存在被其他任何包含的序列模式，它不

仅可以完全表达结果的完全集，有更精简的结果，而且不存

在信息的衰减，对它进行挖掘被认为是压缩挖掘结果的有效

途径。

Ｙａｎ等人

［５］

提出的ＣｌｏＳｐａｎ算法是第一个挖掘闭合序列

模式算法，它在ＰｒｅｆｉｘＳｐａｎ

［４］

算法的基础上加入两种剪枝策略，

并用哈希算法优化搜索空间，可分为两个阶段：第一阶段产生

候选序列，并运用数据库大小哈希、子模式回溯、超模式回溯等

策略提前结束序列的增长；第二阶段运用支持度哈希，修剪非

闭合序列模式，从而得到全部闭合序列模式。实验证明，

ＣｌｏＳ

ｐａｎ

算法效率比ＰｒｅｆｉｘＳｐａｎ算法有很大提高。

ＢＩＤＥ算法

［６］

克服了需要维护候选序列的不足，基于伪投

影，采用双向扩展闭合检测方法，通过向后扫描和跳跃扫描优

化技术剪枝搜索空间，比

ＣｌｏＳｐａｎ有更好的算法性能。该算法

主要应用于简单数据序列，即序列的一个元素为单个项，如蛋

白质序列、网络点击流序列等。随后金沙等人

［７］

提出的ＰｏｓＤ

算法利用支持度、约束策略和位置信息来减少搜索空间。而林

颖提出的

ＰｏｓＤ



算法是在原ＰｏｓＤ算法中加入了时间约束，进

一步减小了搜索空间

［７］

。

通过研究发现，ＣｌｏＳｐａｎ算法在第一阶段需要维护候选序

列，且在模式增长过程中，未充分利用末项的位置信息，对每个

投影数据库都要进行扫描统计其大小，存在着重复扫描统计的

第２９卷第１０期

２０１２年１０月　

计算机应用研究

ＡｐｐｌｉｃａｔｉｏｎＲｅｓｅａｒｃｈｏｆＣｏｍｐｕｔｅｒｓ

Ｖｏｌ２９Ｎｏ１０

Ｏｃｔ２０１２

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38732924

粉丝: 1

优化的posCloSpan算法：无候选序列的闭合序列模式挖掘

论文研究-基于相邻频繁模式段的闭合序列模式挖掘算法.pdf

改进的无候选闭合序列挖掘算法：基于二级索引优化

闭合序列模式的一种增量挖掘算法 (2011年)

基于内存索引的时间间隔加权封闭序列模式挖掘

基于分布式的频繁闭合模式挖掘算法.pdf

datamining-sequentialpatterns:频繁序列序列模式挖掘算法的实现

分布式存储结构的频繁闭合模式挖掘并行算法.doc

H-C:基于H-Struct的频繁闭合项集挖掘算法 (2006年)

基于图论的边角网三角形闭合差自动搜索算法 (2012年)

不确定数据下可能频繁闭序列模式挖掘算法U-FCSM

最新资源