基于数组前缀树的高效频繁项集挖掘算法优化

需积分: 9 168 浏览量更新于2024-09-13 收藏 571KB PDF 举报

本文主要探讨了一种名为"基于数组前缀树的频繁项集挖掘算法"（Algorithm of Frequent Itemsets Mining Based on Array Prefix-trees，简称AFP-Growth），该算法是针对数据挖掘领域中一项关键任务——频繁模式和频繁项集挖掘进行改进的。传统的频繁项集挖掘算法如FP-Growth因其在处理海量数据集时的高效性能而备受关注，但仍有提升空间，特别是在搜索策略和计数方式方面。 AFP-Growth算法的创新之处在于它结合了数组技术，这使得在前缀树（即FP-tree）的基础上实现了优化。首先，算法采用新的遍历策略，解决了FP-tree中项节点转换的问题，提高了算法的执行效率。这一改进有助于减少在挖掘过程中不必要的节点遍历，从而缩短了整体的挖掘时间。其次，算法改进了数组前缀树的构建过程，优化了计数方式。通过利用数组结构，计数过程更为直接和高效，减少了存储和计算的需求，这在内存消耗控制上表现得尤为明显。相比于传统FP-Growth和类似改进算法如FP-Growth*以及STmine，AFP-Growth在实际应用中的挖掘性能得到了显著提升。论文的研究背景是在小型微型计算机系统环境下，针对海量数据集挖掘的需求，提出的这一算法旨在提供一个在时间和空间效率上都具有优势的解决方案。研究者牛新征、杨健和佘堃分别来自电子科技大学计算机科学与工程学院和信息与软件学院，他们的工作涵盖了网络计算、移动数据库、中间件技术和数据挖掘等多个领域。实验结果表明，改进后的AFP-Growth算法在处理真实世界的数据集时，无论是挖掘时间还是内存消耗，都表现出优于FP-Growth*和其他高效算法的性能。这进一步证实了该算法在大规模数据挖掘中的潜力，对于实际应用有着重要的价值。本文介绍的基于数组前缀树的频繁项集挖掘算法（AFP-Growth）是一项创新性的改进，它通过优化搜索策略和计数方法，有效地提升了在海量数据集上的挖掘效率，展示了在大数据时代下数据挖掘算法设计的重要性和必要性。

书书书

小

型微型计算机系统

Journal of Chinese Computer Systems

2014

年

月第

期

Vol． 35 No． 8 2014

收

稿日期

： 2013-05-29

基金项目

：

中央高校基本科研基金

电子科技大学项目

（ ZYGX2010J075 ）

资助

；

四川省科技支撑计划项目

（ 2012GZ0061）

资助

；

国家自然科学基金项目

（ 61300192）

资助

．

作者简介

：

牛新征

，

男

，1978

年生

，

博士

，

副教授

，

研究方向为网络计算

、

移动数据

库

、

中间件技术

、

数据挖掘

；

杨健

，

男

，1992

年生

，

研究方向为数据挖掘

；

佘堃

，

男

，1967

年生

，

博士

，

教授

，

博士生导师

，

研究方向为网络计算

、

人工智能

．

基于数组前缀树的频繁项集挖掘算法

牛

新征

，

杨健

，

佘堃

（

电

子科技大学计算机科学与工程学院

，

四川成都

611731）

（

电

子科技大学信息与软件学院

，

四川成都

611731）

E-mail： xinzhengniu@ uestc． edu． cn

摘要

：

频繁项集挖掘算法研究的焦点是不断提升算法

在海量数据集上的挖掘性能

．

其中

，

基于前缀树的挖掘算法

FP-Growth

是目前研究的焦点之一

，

它在挖掘性能上有很大的改进空间

，

因此基于数组技术的

FP-Growth*

与基于被约束子树的

STmine

等改进算法被提出

．

这些算法有效提升了挖掘速率

，

但在搜索策略与计数方式两个方面仍存在可完善的地方

．

本文提出基于数

组前缀树的频繁项集挖掘算法

AFP-Growth．

该算法使用新的遍历策略解决了

FP-tree

的项节点变换问题

，

完善了数组前缀树的

构建过程以提升其计数效率

，

并且用数组前缀树代替

FP-tree，

减少了对树的遍历时间

．

通过实验验证表明

，

改进后的

AFP-

Growth

算法在多数真实数据集上具有比

FP-Growth*

等其他高效算法更佳的挖掘性能

，

不仅减少了挖掘时间

，

也降低了内存消

耗

，

体现了其对海量数据集挖掘的潜能

．

关键词

：

关联规则

；

频繁模式

；

频繁项集

； FP-Growth

中图分类号

： TP393

文献标识码

： A

文章编号

： 1000-1220（ 2014） 08-1693-06

Algorithm of Frequent Itemsets Mining Based on Array Prefix-trees

NIU Xin-zheng

，YANG Jian

，SHE Kun

（ School of Computer Science and Engineering，University of Electronic Science and Technology of China，Chengdu 611731，China）

（ School of Information and Software Engineering，University of Electronic Science and Technology of China，Chengdu 611731，China）

Abstract： The researches on frequent itemsets mining algorithms focus on improving mining performance on massive data sets． Prefix-

trees based FP-Growth algorithm is one central issue among these researches for improving mining speed． Thus many impro ved algo-

rithms have been proposed，such as FP-Grow th* algorithm w ith an array technique and STmine algorithm based on constrained sub-

trees． These algorithms effectively enhanced the mining speed，however，further improvement on algorithms' search strategy and

counting method is still needed． In this paper，we propose an efficient algorithm，namely AFP-Grow th （ Array Frequent Pattern

Growth）

，for mining frequent itemsets． The algorithm uses new traversal method to solve the problem on changing item nodes，and

refines the process of constructing array prefix-trees for the purpose of increasing the counting efficiency． A new structure called Ar-

ray-tree is used as a substitute for FP-tree，which reduces the tree traversal time． The performance experiment among AFP-Grow th

and other state-of-the-art algorithms on several real databases show s that AFP-Growth effectively reduces the execution time and mem-

ory consumption，and indicates its potential in mining huge amounts of data．

Key words： association rule； frequent pattern； frequent itemsets； FP-Grow th

引言

高效的频繁模式挖掘算法作为关联规则挖掘的关键得到

了学者的广泛研究

． FP-Growth

算

法

［1］

（

下

文简称为

FP）

由于

具有挖掘海量数据集的潜力而成为频繁项集挖掘算法的研究

焦点

，

且其研究的目标集中在不断提升海量数据挖掘的速率

．

算法的改进算法

FP-Growth*

［2］

（

下

文简称

FP* ）

在

算法的基础上引入了数组技术

，

大大减少了因遍历

FP-tree

所

消耗的时间

．

另一个改进算法

，

基于被约束子树的频繁项集挖

掘算法

STmine

［3］

避

免了条件

FP-tree

的生成

，

有效节省了递

归建树与遍历的时间

，

但算法在遍历

FP-tree

时采用的先根遍

历策略无效

，

并且对计数原理的描述存在一定问题

，

建立被约

束子树的过程不明确

．

本文在基于被约束子树的挖掘算法的基础上修复上述存

在的问题

，

提出了基于数组前缀树的新算法

AFP-Growth（

简

称为

AFP）． AFP

算法采用数组前缀树代替条件

FP-tree

的生

成

，

提出正确的计数方式

，

并优化了数组前缀树的建立过程

．

研

究背景

2． 1

问题定义与描述

定

义

1．

项集

：

设集合

I = ｛ i

，i

，…，i

｝

，

其

中

（ k = 1，2，

…，n）

为

不同的项

，

则称

的子集为项集

．

定义

2．

支持度

：

设事务数据库

DB = （ T

，T

，… ，T

）

，T

下载后可阅读完整内容，剩余5页未读，立即下载

eugeneyang

粉丝: 0

基于数组前缀树的高效频繁项集挖掘算法优化

基于数组前缀树的高效频繁项集挖掘算法：AFP-Growth

LFP-growth：一种基于格的高效频繁项集挖掘算法

FP-SegCount：一种高效的数据流频繁项集挖掘算法

数据挖掘apriori算法

PrefixTreeESpan:使用PrefixTreeESpan的noval算法挖掘树的频率模式

Apriori算法代码和原数据集.zip

hash树的建立和在数据挖掘中的应用

PrefixTreeESpan算法实现

处理超大文本的DSA-IS后缀数组外存算法

Python实现fpgrowth算法快速挖掘频繁模式

最新资源