加权项集-Tidset树结构的频繁加权项集快速挖掘算法
需积分: 8 12 浏览量
更新于2024-09-10
收藏 1.15MB PDF 举报
“这篇论文提出了一种扩展的WIT-树融合Diffset策略的频繁加权项集快速挖掘算法,用于解决在加权项事务数据库中挖掘频繁加权项集(FWI)效率低下的问题。该算法通过构建加权项集-Tidset树结构,结合最小加权项集阈值和向下闭合性质进行剪枝,以及利用Diffset策略快速计算项集的加权支持度,显著提高了挖掘效率。”
本文的研究重点是数据挖掘领域中的频繁加权项集(Frequent Weighted Itemsets, FWI)挖掘问题。在传统的关联规则挖掘中,项集的支持度通常基于其在事务数据库中的出现次数。然而,在许多实际应用中,如市场分析、医疗诊断等,项的重要性可能不同,因此引入了权重的概念,形成加权项集。FWI挖掘的目标是找出那些在大量事务中频繁出现且总权重超过特定阈值的项集。
为了解决FWI挖掘的效率问题,作者提出了一种新的数据结构——加权项集-Tidset树(Weighted Itemset-Tidset Tree)。这种树形结构能够有效地存储和管理事务数据库中的加权项集及其关联的事务ID集合,有助于快速查找和剪枝。在构建树的过程中,通过设置最小加权项集阈值,可以提前剔除那些不可能成为频繁项集的节点,从而减少搜索空间。同时,利用向下闭合性质进一步优化剪枝过程,确保非频繁项集的后代不再被考虑。
Diffset策略是本文另一个关键创新点。这一策略允许在内存中高效地计算项集的加权支持度,避免了对整个数据库的多次扫描。它通过跟踪事务之间的差异,仅处理新加入的事务,减少了计算量,显著提升了挖掘速度。
实验结果显示,当输入数据库包含大量FWI时,所提出的算法相比于基于先验知识的算法和基于位矩阵的加权频繁项集生成算法,能分别节省99.37%和99.06%的执行时间,极大地提高了挖掘效率。这表明该算法在大数据环境下的性能优势明显,对于大规模、高权重多样性的数据集尤为适用。
这篇论文提出了一种创新的算法,通过结合优化的数据结构和计算策略,有效解决了FWI挖掘的效率挑战,为数据挖掘领域的关联规则挖掘提供了新的解决方案。该算法对于提高数据驱动决策的效率和准确性具有重要意义。
2019-09-20 上传
2021-06-05 上传
2008-02-01 上传
2021-04-27 上传
2021-05-11 上传
2021-02-26 上传
2021-07-01 上传
2021-06-15 上传
2021-08-29 上传
weixin_39840515
- 粉丝: 448
- 资源: 1万+
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器