收稿日期:20190125;修回日期:20190315 基金项目:国家自然科学基金资助项目(61502262)
作者简介:王斌(1963),男,山东青岛人,教授,硕导,博士,主要研究方向为知识发现、博弈论及应用;房新秀(1994),女(通信作者),硕士,主
要研究方向为数据挖掘、知识发现(893803273@qq.com);吕瑞瑞(1991),女,硕士,主要研究方向为数据挖掘、知识发现;马俊杰(1992),男,硕
士,主要研究方向为数据挖掘、知识发现.
基于 WNegNodeset结构的加权频繁项集挖掘算法
王 斌,房新秀
,吕瑞瑞,马俊杰
(青岛理工大学 信息与控制工程学院,山东 青岛 266520)
摘 要:针对基于 WNlist加权频繁项集挖掘算法(NFWI)中挖掘加权频繁项集(FWI)效率低的问题,提出了一
种基于 WNegNodeset结构的加权频繁项集挖掘算法(NegNFWI)。该算法首先采用了新的数据结构 WNegNode
set
,它是 NegNodeset的扩展,该数据结构采用了一种新的基于集合位图表示的位图加权树(BMWtree)节点编码
模型,通过按位运算符快速提取
WNegNodeset的节点集,避免了大量的交集运算;其次采用了差集策略快速计算
项集的加权支持度,从而减少了计算量;最后通过仿真实验验证了算法的有效性和可行性。
关键词:加权频繁项集;加权支持度;位图加权树;按位运算符;差集策略
中图分类号:TP301.6 文献标志码:A 文章编号:10013695(2020)07014198904
doi:10.19734/j.issn.10013695.2019.01.0014
MiningfrequentweighteditemsetsbasedonWNegNodesetstructure
WangBin,FangXinxiu
,LyuRuirui,MaJunjie
(SchoolofInformation&ControlEngineering,QingdaoTechnologicalUniversity,QingdaoShandong266520,China)
Abstract:IntheminingalgorithmforfrequentweighteditemsetsbasedonWNlist(NFWI),miningweightedfrequentitem
sets
(FWI) isinefficient.Tosolvetheproblem,thispaperproposedafrequentweighted itemsetsminingalgorithm
(NegNFWI)basedonWNegNodesetstructure.Firstly,thisalgorithmusedthedatastructureofWNegNodeset,anextension
ofNegNodeset.Thedatastructureemployedanovelencodingmodelfornodesinbitmapweightedtree(BMWtree)basedon
thebitmaprepresentationofsets,andusedbitwiseoperatorstoextractWNegNodesetsofitemsetsquickly,avoidingalarge
quantityofintersectionoperations.Secondly,thisalgorithm useddiffsetsstrategytocalculatetheweightedsupportdegreeof
itemsetsquickly
,thusdecreasingcomputingtime.Finally,resultsfrom simulationexperimentsshowthattheproposedalgo
rithmisefficientandfeasible.
Keywords:frequentweighteditemsets;weightedsupport;bitmapweightedtree;bitwiseoperators;diffsetsstrategy
自 Agrawal等人首次提出挖掘频繁项集以来,挖掘频繁项
集
[1]
已经成为一个重要的研究课题,Ramkumar等人首次提出
挖掘加权频繁项集的问题,加权关联规则能发现那些出现频率
较低但权 值 比 较 大 的 频 繁 项 集。虽 然 有 许 多研 究 关注 WD
(weighteddatabase)中的模式挖掘,如挖掘 FWI(frequentweigh
teditemsets)
[2~4]
、挖掘加权频繁闭项集
[5]
、挖掘加权频繁效用
项集
[6,7]
、使用 FWI挖掘的应用程序
[8]
、有趣的加权频繁模式
挖掘
[9]
等,但是在挖掘效率方面仍然存在着一定的不足:a)在
扫描数据库方面,许多算法需要多次扫描数据库;
b)在连接和
剪枝策略方面,每连接一次都会产生大量的频繁项集,影响了
挖掘的效率。
最初,由
Yun等人发起的第一种方法是使用平均函数来
评估权重的一个项目集,即 WFIM 算法
[10]
。后来其他人提出
了 PWAI
[11]
、Wspan
[10]
算法。但是以上这些算法有如下缺点:
a)不满足向下封闭属性;b)在挖掘过程中同时考虑项集的权
重和支持。以上方法认为交易是相同的,但在实践中,事务的
重要性是不同的。第二种方法源于 Tao等人在 2003年所做的
研究,其分别计算加权支持度和事务权重,但是这种算法因为
多次扫描数据库而耗费时间。后来人们提出了其他算法,如
FWI
TCD
[12]
、FWI
WSD
[12]
等。这几种算法都能反映项集支持度和
事务具有不同的重要性,并且它们能保持向下封闭属性。以上
算法采用了一种新的前缀树结构来压缩数据,但是这些算法必
须通过多次遍历树来挖掘 FWI,因此花费了很多时间。
最近
Bui等人
[10]
在 2018年提出了一种基于 WNList的算
法,采用 WNList数据结构,它从前缀树中提取 WNList结构
来挖掘加 权 频 繁 项 集 (称 为 NFWI算 法)。该 数 据 结 构 是
NList
[13]
的扩展。该算法用于大型稀疏的数据集时性能良好,
但是在密集数据集中,由于
WNlist需要前序编码和后序编码来
表示节点,所以需要进行大量的交集运算,造成挖掘效率较低。
本文针对 NFWI(WNListfrequentweighteditemsets)算法
上述存在的问题,提出了一个新的算法———NegNFWI(WNeg
Nodesetfrequentweighteditemsets
)。该算法是在 NFWI算法的
基础上加以改进,并且满足向下封闭属性。该算法首先采用了
新的数据结构
WNegNodeset,它是 NegNodeset
[14]
的扩展,该数
据结构 采 用 了 一 种 新 的 基 于 集 合 位 图 表 示 的 位 图 加 权 树
BMWtree(bitmapweightedtree)节 点 编 码 模 型,快 速 提 取
WNegNodeset的节点集;然后采用差集策略
[14]
快速计算项集
的加权支持度;最后用集合枚举树来生成加权频繁项集,并采
用剪枝策略修剪搜索空间。实验结果表明,NegNFWI算法在
时间效率上优于
NFWI算法。
1 相关定义及问题陈述
11 基本概念
定义 1
[10]
加权数据库(WD)是一个元组,T=〈T,I,W〉,
其中:
T={t
1
,t
2
,…,t
m
}是一组事务;I={I
1
,I
2
,…,I
m
}是一组
第 37卷第 7期
2020年 7月
计 算 机 应 用 研 究
ApplicationResearchofComputers
Vol.37No.7
Jul.2020