大数据流中减少候选项集的高效用项集挖掘算法优化

需积分: 10 0 下载量 98 浏览量 更新于2024-09-08 收藏 1.85MB PDF 举报
在大数据时代,高效的项集挖掘算法至关重要,然而传统的算法常常因候选项集过大而影响了时间和空间效率。针对这一问题,本文提出了一种旨在减少候选项集的数据流高效用项集挖掘算法。首先,算法通过一次扫描数据流中的当前窗口,构建一个全局树结构。这个全局树的设计旨在减少头表入口与节点之间的冗余效用值,从而优化存储和查询效率。 在全局树的基础上,算法生成候选模式,这些模式是潜在的高效用模式候选。接着,引入模式增长算法来进一步精简局部树的候选项集,通过迭代的方式评估每个模式的效用,确保只保留最有可能成为高效用模式的元素。这种策略有助于减少不必要的计算和存储需求,提升整体性能。 实验结果基于真实的实时数据流,显示了新算法在时空效率以及内存占用方面的显著优势。相比于其他数据流高效的模式挖掘算法,该算法在处理大规模数据时具有更高的效率和更低的资源消耗。此外,该算法还考虑到了数据流的动态特性,能够实时响应变化,这对于实时分析和决策支持系统尤为重要。 作者们,茹蓓和贺新征,分别来自新乡学院和河南大学,他们的研究领域包括软件开发、信息处理和网络信息安全,他们针对大数据环境下的挑战提出了创新的解决方案。论文的研究成果不仅对于提高数据挖掘的实用性有重要价值,也为后续的相关研究提供了新的思路和技术支撑。 关键词:大数据、数据流、高效用项集、模式挖掘、模式增长和候选模式,这些词汇准确地概括了论文的核心内容,反映了研究的重点和贡献。整个算法的设计和实施都围绕着如何在大数据的背景下,通过优化候选项集来提升模式挖掘的性能,这无疑是对现有技术的一次重要改进。