Hadoop平台上的大数据粗粒度并行聚类算法优化

0 下载量 175 浏览量 更新于2024-08-29 收藏 1.11MB PDF 举报
随着信息技术的飞速发展,大数据时代已经来临,数据量的急剧增长对传统的数据处理和分析技术提出了严峻挑战。在这个背景下,研究人员致力于寻找更高效的方法来处理大规模数据集,本文针对这一问题探讨了一种面向大数据集的粗粒度并行聚类算法。 该研究论文由向尧、袁景凌、钟珞和赵彦鹏四位作者合作完成,他们分别来自武汉理工大学计算机科学与技术学院。他们的研究背景涵盖了智能计算、数据挖掘等多个领域,这对于理解和优化算法提供了多学科的视角。论文的基础是Hadoop平台,这是一个广泛应用于大数据处理的开源框架,它允许分布式处理大规模数据,提高了计算效率。 文章的核心内容是设计并实现了一种基于Hadoop的并行化Partitioning Around Medoid (PAM) 聚类算法。PAM是一种经典的凝聚式聚类方法,通过选择每个簇的质心(medoid)来代表整个簇。为了应对大数据集,作者提出了粗粒度聚类单元策略(Coarse-Grained Clustering Unit Strategy)。这种方法通过对数据进行分块处理,减少了单个节点的计算压力,同时保持了聚类的有效性。通过粗粒度划分,算法能够显著提高运行效率和计算能力,实验结果显示,相较于传统方法,这种策略带来了超过6%的性能提升。 研究者还关注了算法的扩展性和伸缩性,即其能否适应不同规模的数据集和计算资源。通过多组实验对比,该并行算法展示了良好的加速比,这意味着在处理更大规模数据时,其速度提升更为显著。此外,论文还提到了云计算和大数据这两个关键术语,强调了算法在云计算环境下处理大数据集的适用性。 本文的关键词包括云计算、大数据、PAM、粗粒度和Hadoop,这些关键词揭示了研究的焦点和创新点。这项研究为大数据集下的高效聚类分析提供了一个有价值的方法论,有助于推动云计算时代下数据密集型应用的发展。在未来的研究中,这可能成为改进现有算法或者启发新算法设计的重要参考。