分布式并行高效用项集挖掘算法P-EFIM

0 下载量 188 浏览量 更新于2024-09-03 收藏 544KB PDF 举报
"沈伟,方伟,李琳在《一种分布式并行的高效用项集挖掘算法》中提出了一种名为P-EFIM的新算法,该算法旨在解决高效用项集挖掘(HUIM)在大数据环境下的效率问题。他们工作在Hadoop平台上,利用MapReduce框架设计了一个并行化策略,以提高数据存储和计算的效率。" 高效用项集挖掘(High-Utility Itemset Mining, HUIM)是数据挖掘中的关键任务,其目标是从大量交易数据中找出具有高效用的项集。这些项集在商业智能、市场分析等领域有着广泛的应用。然而,传统的HUIM算法通常受到单机内存和处理器性能的限制,无法处理大规模数据集。因此,沈伟等人提出了P-EFIM算法,以适应大数据时代的需求。 P-EFIM算法的核心是基于MapReduce的分布式并行处理。首先,在Map阶段,算法将事务的加权效用值进行计算和排序,这有助于识别出高效率用的候选项集。然后,通过排序后的项集序列对原始数据集进行重新编号,去除低效用项,以优化数据结构并减少无谓的计算。为了保证任务分配的均衡性和节点负载,他们采用了S型的分配策略,将任务分解为多个子任务并均匀分发到各个计算节点。 在Reduce阶段,P-EFIM利用了高效的EFIM算法来挖掘每个子任务数据集,从而提高了整体的执行效率。这种方法有效地减少了数据传输和处理的开销,尤其是在大数据集上的表现更为显著。实验结果显示,P-EFIM在多个大规模数据集上的运行时间明显优于基于MapReduce的PHUI-Growth算法。 P-EFIM算法是一种创新的分布式并行方法,它为解决大数据环境下的高效用项集挖掘问题提供了新的思路。通过充分利用Hadoop平台的分布式计算能力,P-EFIM算法能够处理更大规模的数据集,同时保持较高的挖掘效率。这一研究对于提升大数据时代的挖掘性能和扩展性具有重要的理论与实践价值。