后缀项表提升并行闭频集挖掘效率:一项MapReduce算法优化

需积分: 5 0 下载量 97 浏览量 更新于2024-08-13 收藏 829KB PDF 举报
本文档深入探讨了一种在2014年提出的基于后缀项表的并行闭频繁项集挖掘算法,针对现有的基于MapReduce的并行频繁项集挖掘方法进行改进。MapReduce是一种分布式计算框架,常用于大规模数据处理,但传统的算法在处理高维大数据时可能会面临数据传输量大、效率低下的问题。 作者们针对这些问题,提出了新算法。核心思路是利用后缀项表(Postfix Table),这是一种数据结构,可以有效地组织和管理频繁项集的挖掘过程。后缀项表通过预先存储和索引项集的子集,减少了在组分间的频繁数据传输,从而显著提高了挖掘效率。闭频繁项集挖掘,即只关注出现频率高于预设阈值的项集,相比于常规频繁项集挖掘,更能减少不必要的计算,进一步优化了算法性能。 论文指出,新算法在实验中表现出缩短平均挖掘时间的优势,特别是在处理高维度的大数据时,其性能更优。作者唐颖峰博士和陈世平教授分别来自上海理工大学管理和上海对外经贸大学,他们的研究领域涵盖了云计算、数据挖掘、计算机网络通信和信息检索等多个方向。 研究还得到了国家自然科学基金、上海市教委科研创新重点项目的资金支持,以及上海市一流学科建设项目。论文的关键词包括“频繁项集挖掘”、“并行挖掘算法”、“MapReduce”、“闭频繁项集”和“后缀项表”,这些关键词体现了文章的核心内容和研究重点。 这篇论文提供了一种在大数据时代背景下,通过优化数据处理策略和利用分布式计算框架来提升频繁项集挖掘效率的重要方法,对于IT行业的数据挖掘和并行计算实践具有重要的理论和应用价值。