粒度计算优化的频繁闭项目集挖掘算法

需积分: 14 181 浏览量更新于2024-08-11 收藏 1.14MB PDF 举报

"基于粒度计算的频繁闭项目集挖掘 (2014年) - 提出了一种新的算法，结合粒度计算的概念，优化了传统频繁闭项目集挖掘的效率，减少了内存、CPU开销及I/O成本。" 在关联规则挖掘中，频繁闭项目集是一种重要的数据挖掘技术，它在Apriori算法的基础上进行优化，旨在减少频繁项目集的规模，以提高挖掘效率。由Pasquier等人提出的A-close算法是早期的频繁闭项目集挖掘算法，它采用自底向上的宽度优先搜索策略，但由于宽度优先搜索可能导致高CPU开销和频繁的数据库扫描，这成为算法性能的瓶颈。另一方面，FP-Growth算法如CLOSET，通过构建FP-Tree数据结构来减小数据库扫描次数，但其递归构造过程增加了CPU负担，并且复杂的树结构需要较大的存储空间。为了解决这些问题，粒度计算的概念被引入到这一领域。粒度计算采用“分而治之”的策略，能有效地减少计算复杂性和I/O操作，特别是在大数据处理中。基于粒度计算的频繁闭项目集挖掘算法提出了一种新的方法，它通过混合进制数的变化生成候选项目集，避免了使用复杂数据结构，同时利用粒度计算的思路来计算支持度，减少重复数据库扫描。这种方法不仅降低了内存消耗，还减少了CPU的计算负担，提高了算法的运行速度和效率。实验结果显示，基于粒度计算的频繁闭项目集挖掘算法相对于传统的A-close和FP-Growth类算法有显著的性能提升，这证明了粒度计算在频繁闭项目集挖掘中的应用价值。这种创新的方法为关联规则挖掘提供了一个更高效、更节省资源的选择，对于数据挖掘领域的研究和发展具有积极的意义。

C omputer Engineering and Applications计算机工程与应用2014，50（20）

1 引言

在关联规则挖掘算法中，针对 Apriori 算法会生成

大量的频繁项目集，Pasquier 等人提出通过挖掘频繁闭

项目集来减少频繁项目集的规模，频繁闭项目集的数量

介于最大频繁项目集和频繁项目集之间，并记载了所有

频繁项目集的支持度。自挖掘频繁闭项目集算法A-close，

CHARM 和 CLOSET 被提出以来，频繁闭项目集挖掘问

题就成为人们的研究热点

[1-6]

。基于这些频繁闭项目集

挖掘算法，可以归纳为如下两类：

一是基于 Apriori 思想的频繁闭项目集挖掘算法

[7]

；

在这类算法中具有代表性的算法是 Pasquier 等人提出

A-close，该算法是以 Apriori思想为基础，运用自底向上

和宽度优先的搜索策略，通过构造最小频繁闭项目集的

超集，按长度递增方式求出所有最小频繁闭项目集。其

优点是数据结构简单，易于实现和维护；虽然通过修剪

策略，减少了候选项的搜索空间，但没有解决宽度优先

搜索算法模式匹配的高 CPU 开销和重复扫描数据库的

高 I/O 开销的问题。

二是基于 FP-Growth 思想的频繁闭项目集挖掘算

法

[8-10]

；在这类算法中具有代表性的算法是 J.Pei 等人提

出的算法 CLOSET，该算法是以 FP-Growth 思想为基础，

采用复杂的 Tree 数据结构来表示频繁项目集，通过深度

优先搜索来挖掘频繁闭项目集。虽然其减少了扫描数

据库的次数，在一定程度上降低了 I/O 开销；但其递归构

造 FP-Tree，增加了 CPU 开销，且数据结构复杂，存储开

销很大。

粒度计算作为一种方法学被引入到人工智能领域

[11-14]

，

虽然其是一种很有效的数据挖掘方法，可以减少计算复

基于粒度计算的频繁闭项目集挖掘

方刚，王佳乐，应宏，汤小斌

FANG Gang, WANG Jiale, YING H on g, TANG Xiaobin

重庆三峡学院，重庆万州 404000

Chongqing Three Gorges University, Wanzhou, Chongqing 404000, China

FANG Gang, WANG Jiale, YING Hong, et al. Frequent closed itemsets mining based on granular computing. Com-

puter Engineering and Applications, 2014, 50（20）：130-134.

Abstract：Aiming to these shortcomings from the present frequent cl osed itemsets mining algorithms, this paper proposes

an algorithm of fre quent close d itemsets mining based on granular computing. Th e algorithm uses the varying mixed radix

number to generate candida te i temsets, and avoids adopting the comple x data structure to reduce the me mory and the CPU

overhead. And it uses divide and rule for granular computin g to comp ute the support of frequent closed itemsets, and

avoids reading repeatedly the database to reduce the computation complexity and I/O ov erhead. These experimental results

indicate that the alg orithm is faster and more efficient than these classical mining algorithms for freq uent closed it emsets.

Key words：frequent closed itemsets; granular computing; data mining

摘要：针对现有频繁闭项目集挖掘算法存在的不足，提出了一种基于粒度计算的频繁闭项目集挖掘算法。通过混

合进制数的变化来生成候选项目集，避免使用了复杂的数据结构，减少了内存和 CPU 的开销；利用粒度计算的分而

治之思想来计算频繁闭项目集的支持度，避免了多次重复扫描数据库，减少了计算复杂度和 I/O 开销。实验结果表

明该算法比经典的频繁闭项目集挖掘算法快速而有效。

关键词：频繁闭项目集；粒度计算；数据挖掘

文献标志码：A 中图分类号：TP311 doi：10.3778/j.issn.1002- 8331.1401-0180

基金项目：重庆市前沿与应用基础研究项目（No.cstc2014jcyjA400 35）；重庆市教委科学技术研究项目（No.KJ131108）；重庆三峡学

院科学技术研究重点项目（No.13ZD20）。

作者简介：方刚（1978—），男，副教授，研究领域为数据挖掘、粒度计算；王佳乐（1984—），女，助教，研究领域为客户关系管理、数

据挖掘；应宏（1962—），男，教授，研究领域为数据库、网格计算。E-mail：cqwzjsjfg@163.com

收稿日期：2014-01-13 修回日期：2014-03-24 文章编号：1002-8331（2014）20-0130-05

130

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38607282

粉丝: 3
资源: 973

粒度计算优化的频繁闭项目集挖掘算法

基于粒度计算的大数据集频繁项挖掘方法.zip

基于粒度计算的大数据集频繁项挖掘方法.pdf

基于覆盖的多粒度决策理论粗糙集模型 (2014年)

基于扩展粒度计算的防空体系结构超网络模型 (2014年)

基于粒度计算的交通数据处理

基于粒度计算的多峰基于手指的识别方法

基于粒度计算的大型电网经济调度研究

基于粒度计算的数据分类建模研究* (2007年)

基于粒度计算的聚类集成算法研究.docx

基于粒度计算的聚类集成算法研究.pdf

最新资源