WNegNodeset结构的加权频繁项集挖掘算法优化

需积分: 9 76 浏览量更新于2024-08-13 收藏 1.23MB PDF 举报

"基于WNegNodeset结构的加权频繁项集挖掘算法" 本文提出了一种名为NegNFWI的新型加权频繁项集挖掘算法，旨在解决基于WN-list的加权频繁项集挖掘算法（NFWI）在处理加权频繁项集（FWI）时效率低下的问题。NegNFWI算法的核心创新在于引入了WNegNodeset数据结构，它是NegNodeset的扩展，利用一种称为位图加权树（BMW-tree）的节点编码模型，有效地存储和处理数据。位图加权树（BMW-tree）是一种基于集合位图表示的数据结构，它通过位运算符来操作，能够在处理大规模数据时显著提高性能。WNegNodeset利用这种数据结构，能够快速提取节点集，避免了传统方法中耗时的交集运算，从而提高了挖掘效率。算法的另一个关键改进是采用了差集策略来计算项集的加权支持度，这种方法比传统的计算方法更为高效，减少了计算量。加权频繁项集（FWI）的概念是针对传统频繁项集挖掘的扩展，其中每个项集的支持度不仅考虑了其出现的次数，还考虑了项集内各元素的权重。加权支持度的计算对于理解和分析具有权重属性的数据集至关重要。 NegNFWI算法的提出，使得在处理这些复杂数据时能更高效地挖掘出有价值的模式。在实际应用中，数据挖掘和知识发现领域的研究者经常面临大数据集的挑战，而高效的挖掘算法如NegNFWI对于实时分析和决策支持具有重要意义。文章通过仿真实验验证了NegNFWI算法的有效性和可行性，表明它在挖掘加权频繁项集时具有较高的性能。关键词涵盖的方面包括加权频繁项集的挖掘、加权支持度的计算、位图加权树的数据结构运用、按位运算符在数据处理中的应用以及差集策略在减少计算量中的作用。这些关键词反映了NegNFWI算法设计的关键技术和理论基础。 NegNFWI算法为加权频繁项集挖掘提供了一个新的解决方案，它通过优化数据结构和计算策略，提升了在大数据环境下的挖掘速度，对于进一步提升数据挖掘的效率和准确性具有重要的理论和实践价值。

　　收稿日期：２０１９０１２５；修回日期：２０１９０３１５　　基金项目：国家自然科学基金资助项目（６１５０２２６２）

　　作者简介：王斌（１９６３），男，山东青岛人，教授，硕导，博士，主要研究方向为知识发现、博弈论及应用；房新秀（１９９４），女（通信作者），硕士，主

要研究方向为数据挖掘、知识发现（８９３８０３２７３＠ｑｑ．ｃｏｍ）；吕瑞瑞（１９９１），女，硕士，主要研究方向为数据挖掘、知识发现；马俊杰（１９９２），男，硕

士，主要研究方向为数据挖掘、知识发现．

基于ＷＮｅｇＮｏｄｅｓｅｔ结构的加权频繁项集挖掘算法



王　斌，房新秀



，吕瑞瑞，马俊杰

（青岛理工大学信息与控制工程学院，山东青岛２６６５２０）

摘　要：针对基于ＷＮｌｉｓｔ加权频繁项集挖掘算法（ＮＦＷＩ）中挖掘加权频繁项集（ＦＷＩ）效率低的问题，提出了一

种基于ＷＮｅｇＮｏｄｅｓｅｔ结构的加权频繁项集挖掘算法（ＮｅｇＮＦＷＩ）。该算法首先采用了新的数据结构ＷＮｅｇＮｏｄｅ

ｓｅｔ

，它是ＮｅｇＮｏｄｅｓｅｔ的扩展，该数据结构采用了一种新的基于集合位图表示的位图加权树（ＢＭＷｔｒｅｅ）节点编码

模型，通过按位运算符快速提取

ＷＮｅｇＮｏｄｅｓｅｔ的节点集，避免了大量的交集运算；其次采用了差集策略快速计算

项集的加权支持度，从而减少了计算量；最后通过仿真实验验证了算法的有效性和可行性。

关键词：加权频繁项集；加权支持度；位图加权树；按位运算符；差集策略

中图分类号：ＴＰ３０１．６　　　文献标志码：Ａ　　　文章编号：１００１３６９５（２０２０）０７０１４１９８９０４

ｄｏｉ：１０．１９７３４／ｊ．ｉｓｓｎ．１００１３６９５．２０１９．０１．００１４

ＭｉｎｉｎｇｆｒｅｑｕｅｎｔｗｅｉｇｈｔｅｄｉｔｅｍｓｅｔｓｂａｓｅｄｏｎＷＮｅｇＮｏｄｅｓｅｔｓｔｒｕｃｔｕｒｅ

ＷａｎｇＢｉｎ，ＦａｎｇＸｉｎｘｉｕ



，ＬｙｕＲｕｉｒｕｉ，ＭａＪｕｎｊｉｅ

（ＳｃｈｏｏｌｏｆＩｎｆｏｒｍａｔｉｏｎ＆ＣｏｎｔｒｏｌＥｎｇｉｎｅｅｒｉｎｇ，ＱｉｎｇｄａｏＴｅｃｈｎｏｌｏｇｉｃａｌＵｎｉｖｅｒｓｉｔｙ，ＱｉｎｇｄａｏＳｈａｎｄｏｎｇ２６６５２０，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：ＩｎｔｈｅｍｉｎｉｎｇａｌｇｏｒｉｔｈｍｆｏｒｆｒｅｑｕｅｎｔｗｅｉｇｈｔｅｄｉｔｅｍｓｅｔｓｂａｓｅｄｏｎＷＮｌｉｓｔ（ＮＦＷＩ），ｍｉｎｉｎｇｗｅｉｇｈｔｅｄｆｒｅｑｕｅｎｔｉｔｅｍ

ｓｅｔｓ

（ＦＷＩ）ｉｓｉｎｅｆｆｉｃｉｅｎｔ．Ｔｏｓｏｌｖｅｔｈｅｐｒｏｂｌｅｍ，ｔｈｉｓｐａｐｅｒｐｒｏｐｏｓｅｄａｆｒｅｑｕｅｎｔｗｅｉｇｈｔｅｄｉｔｅｍｓｅｔｓｍｉｎｉｎｇａｌｇｏｒｉｔｈｍ

（ＮｅｇＮＦＷＩ）ｂａｓｅｄｏｎＷＮｅｇＮｏｄｅｓｅｔｓｔｒｕｃｔｕｒｅ．Ｆｉｒｓｔｌｙ，ｔｈｉｓａｌｇｏｒｉｔｈｍｕｓｅｄｔｈｅｄａｔａｓｔｒｕｃｔｕｒｅｏｆＷＮｅｇＮｏｄｅｓｅｔ，ａｎｅｘｔｅｎｓｉｏｎ

ｏｆＮｅｇＮｏｄｅｓｅｔ．Ｔｈｅｄａｔａｓｔｒｕｃｔｕｒｅｅｍｐｌｏｙｅｄａｎｏｖｅｌｅｎｃｏｄｉｎｇｍｏｄｅｌｆｏｒｎｏｄｅｓｉｎｂｉｔｍａｐｗｅｉｇｈｔｅｄｔｒｅｅ（ＢＭＷｔｒｅｅ）ｂａｓｅｄｏｎ

ｔｈｅｂｉｔｍａｐｒｅｐｒｅｓｅｎｔａｔｉｏｎｏｆｓｅｔｓ，ａｎｄｕｓｅｄｂｉｔｗｉｓｅｏｐｅｒａｔｏｒｓｔｏｅｘｔｒａｃｔＷＮｅｇＮｏｄｅｓｅｔｓｏｆｉｔｅｍｓｅｔｓｑｕｉｃｋｌｙ，ａｖｏｉｄｉｎｇａｌａｒｇｅ

ｑｕａｎｔｉｔｙｏｆｉｎｔｅｒｓｅｃｔｉｏｎｏｐｅｒａｔｉｏｎｓ．Ｓｅｃｏｎｄｌｙ，ｔｈｉｓａｌｇｏｒｉｔｈｍｕｓｅｄｄｉｆｆｓｅｔｓｓｔｒａｔｅｇｙｔｏｃａｌｃｕｌａｔｅｔｈｅｗｅｉｇｈｔｅｄｓｕｐｐｏｒｔｄｅｇｒｅｅｏｆ

ｉｔｅｍｓｅｔｓｑｕｉｃｋｌｙ

，ｔｈｕｓｄｅｃｒｅａｓｉｎｇｃｏｍｐｕｔｉｎｇｔｉｍｅ．Ｆｉｎａｌｌｙ，ｒｅｓｕｌｔｓｆｒｏｍｓｉｍｕｌａｔｉｏｎｅｘｐｅｒｉｍｅｎｔｓｓｈｏｗｔｈａｔｔｈｅｐｒｏｐｏｓｅｄａｌｇｏ

ｒｉｔｈｍｉｓｅｆｆｉｃｉｅｎｔａｎｄｆｅａｓｉｂｌｅ．

Ｋｅｙｗｏｒｄｓ：ｆｒｅｑｕｅｎｔｗｅｉｇｈｔｅｄｉｔｅｍｓｅｔｓ；ｗｅｉｇｈｔｅｄｓｕｐｐｏｒｔ；ｂｉｔｍａｐｗｅｉｇｈｔｅｄｔｒｅｅ；ｂｉｔｗｉｓｅｏｐｅｒａｔｏｒｓ；ｄｉｆｆｓｅｔｓｓｔｒａｔｅｇｙ

　　自Ａｇｒａｗａｌ等人首次提出挖掘频繁项集以来，挖掘频繁项

集

［１］

已经成为一个重要的研究课题，Ｒａｍｋｕｍａｒ等人首次提出

挖掘加权频繁项集的问题，加权关联规则能发现那些出现频率

较低但权值比较大的频繁项集。虽然有许多研究关注ＷＤ

（ｗｅｉｇｈｔｅｄｄａｔａｂａｓｅ）中的模式挖掘，如挖掘ＦＷＩ（ｆｒｅｑｕｅｎｔｗｅｉｇｈ

ｔｅｄｉｔｅｍｓｅｔｓ）

［２～４］

、挖掘加权频繁闭项集

［５］

、挖掘加权频繁效用

项集

［６，７］

、使用ＦＷＩ挖掘的应用程序

［８］

、有趣的加权频繁模式

挖掘

［９］

等，但是在挖掘效率方面仍然存在着一定的不足：ａ）在

扫描数据库方面，许多算法需要多次扫描数据库；

ｂ）在连接和

剪枝策略方面，每连接一次都会产生大量的频繁项集，影响了

挖掘的效率。

最初，由

Ｙｕｎ等人发起的第一种方法是使用平均函数来

评估权重的一个项目集，即ＷＦＩＭ算法

［１０］

。后来其他人提出

了ＰＷＡＩ

［１１］

、Ｗｓｐａｎ

［１０］

算法。但是以上这些算法有如下缺点：

ａ）不满足向下封闭属性；ｂ）在挖掘过程中同时考虑项集的权

重和支持。以上方法认为交易是相同的，但在实践中，事务的

重要性是不同的。第二种方法源于Ｔａｏ等人在２００３年所做的

研究，其分别计算加权支持度和事务权重，但是这种算法因为

多次扫描数据库而耗费时间。后来人们提出了其他算法，如

ＦＷＩ



ＴＣＤ

［１２］

、ＦＷＩ



ＷＳＤ

［１２］

等。这几种算法都能反映项集支持度和

事务具有不同的重要性，并且它们能保持向下封闭属性。以上

算法采用了一种新的前缀树结构来压缩数据，但是这些算法必

须通过多次遍历树来挖掘ＦＷＩ，因此花费了很多时间。

WNegNodeset结构的加权频繁项集挖掘算法优化

论文研究-一种挖掘加权频繁项集的改进算法.pdf

基于云计算的最大频繁项集挖掘算法.pdf

改进的频繁项集挖掘算法关键技术研究

基于医疗数据流的加权频繁模式挖掘算法.pdf

基于医疗数据流的加权频繁模式挖掘算法.rar

加权项集-Tidset树结构的频繁加权项集快速挖掘算法

提升效率：差集驱动的加权频繁项集挖掘新算法

论文研究-加权最大频繁子图挖掘算法的研究.pdf

一种新的基于Apriori算法的加权关联规则挖掘算法.pdf

基于频繁项集挖掘的发布_订阅分布式系统运行模式识别.pdf

最新资源