加权项集-Tidset树结构的频繁加权项集快速挖掘算法

需积分: 8 0 下载量 12 浏览量 更新于2024-09-10 收藏 1.15MB PDF 举报
“这篇论文提出了一种扩展的WIT-树融合Diffset策略的频繁加权项集快速挖掘算法,用于解决在加权项事务数据库中挖掘频繁加权项集(FWI)效率低下的问题。该算法通过构建加权项集-Tidset树结构,结合最小加权项集阈值和向下闭合性质进行剪枝,以及利用Diffset策略快速计算项集的加权支持度,显著提高了挖掘效率。” 本文的研究重点是数据挖掘领域中的频繁加权项集(Frequent Weighted Itemsets, FWI)挖掘问题。在传统的关联规则挖掘中,项集的支持度通常基于其在事务数据库中的出现次数。然而,在许多实际应用中,如市场分析、医疗诊断等,项的重要性可能不同,因此引入了权重的概念,形成加权项集。FWI挖掘的目标是找出那些在大量事务中频繁出现且总权重超过特定阈值的项集。 为了解决FWI挖掘的效率问题,作者提出了一种新的数据结构——加权项集-Tidset树(Weighted Itemset-Tidset Tree)。这种树形结构能够有效地存储和管理事务数据库中的加权项集及其关联的事务ID集合,有助于快速查找和剪枝。在构建树的过程中,通过设置最小加权项集阈值,可以提前剔除那些不可能成为频繁项集的节点,从而减少搜索空间。同时,利用向下闭合性质进一步优化剪枝过程,确保非频繁项集的后代不再被考虑。 Diffset策略是本文另一个关键创新点。这一策略允许在内存中高效地计算项集的加权支持度,避免了对整个数据库的多次扫描。它通过跟踪事务之间的差异,仅处理新加入的事务,减少了计算量,显著提升了挖掘速度。 实验结果显示,当输入数据库包含大量FWI时,所提出的算法相比于基于先验知识的算法和基于位矩阵的加权频繁项集生成算法,能分别节省99.37%和99.06%的执行时间,极大地提高了挖掘效率。这表明该算法在大数据环境下的性能优势明显,对于大规模、高权重多样性的数据集尤为适用。 这篇论文提出了一种创新的算法,通过结合优化的数据结构和计算策略,有效解决了FWI挖掘的效率挑战,为数据挖掘领域的关联规则挖掘提供了新的解决方案。该算法对于提高数据驱动决策的效率和准确性具有重要意义。