MapReduce框架下的大数据分区聚类算法研究

63 浏览量更新于2024-06-18 收藏 855KB PDF 举报

"这篇学术文章主要探讨了在大数据分析背景下，如何利用MapReduce框架进行基于分区的聚类算法的研究和优化。文章详细介绍了MapReduce编程范式的应用，以及其在处理大规模数据集时的优势，特别是在大数据聚类问题上的贡献。作者们对近年来的相关研究进行了深入分析，关注点在于如何通过修改传统聚类算法，如K-means、K-prototypes、K-medoids、K-modes和模糊C-均值，以适应MapReduce环境，从而提高聚类效率和准确性。" MapReduce是一种并行处理和大规模数据集处理的编程模型，由Google提出，用于处理和生成大数据集。这个框架将复杂的问题分解为简单的“映射”(map)和“归约”(reduce)步骤，使得在分布式计算环境中可以高效地运行。在大数据聚类中，MapReduce发挥了关键作用，因为它能够将大规模的数据分布到多台机器上进行并行处理，显著提高了计算速度。 Hadoop是一个开源的分布式计算框架，它实现了MapReduce模型，使得在廉价硬件集群上处理PB级别的数据成为可能。Hadoop的两个核心组件是HDFS（Hadoop Distributed File System）和MapReduce。HDFS提供了高容错性和高吞吐量的数据存储，而MapReduce则负责数据处理的并行化。在大数据分析领域，聚类是一种无监督学习方法，用于发现数据集中的自然群体或类别。传统的聚类算法在面对海量数据时，往往面临着计算时间和内存限制。因此，研究人员开始将这些算法，如经典的K-means，转化为适应MapReduce环境的版本。例如，Map阶段通常用于分配数据到各个分区，并计算每个分区内的初步聚类中心；Reduce阶段则负责合并各个分区的结果，最终得到全局的聚类结果。文章详细分析了基于分区的聚类算法在MapReduce上的应用，包括针对不同数据类型和目标的优化策略。例如，K-prototypes适用于同时处理数值和类别数据的聚类，K-medoids和K-modes则更适合处理离散数据。模糊C-均值则引入了模糊逻辑，允许数据点同时属于多个类别。在MapReduce中，这些算法的并行化不仅提高了处理速度，还能处理分布式环境中的大规模数据。此外，文章还讨论了在大数据聚类中遇到的挑战，如数据质量、数据倾斜、网络延迟和计算资源的分配等。通过对现有工作的回顾，作者指出了未来研究可能的方向，包括算法的优化、新的聚类模型以及更高效的分布式计算架构。关键词：数据挖掘、MapReduce、Hadoop、大数据聚类、基于分区的聚类算法、K-means、K-prototypes、K-medoids、K-modes、模糊C-均值。

T.H. Sardar

，

Z.Ansari/Future Computing and Informatics Journal 3

（

2018

）

247e

261

249

并行和分布式机制。MapReduce是Google于2004年提出的

一种在一系列连接的节点之间并行处理大型数据集的编程

范式。MapReduce通过将任务划分为两个功能块map 和

reduce来执行任务。MapReduce自动处理map和reduce函数

执行所需的输入和输出相关机制[31]。Hadoop是一个框

架，它通过基于MapReduce范式编写的应用程序实现高效

的大型数据集处理[32]。Hadoop采用主从架构，其中一个

主节点协调多个从节点。Hadoop有两个主要部分：存储

和处理。存储部分被管理采用Hadoop分布式文件系统

（HDFS），处理部分基于 MapReduce 编程参数进行设

计。使用这两个部分，Hadoop可以通过管理节点中数据

分布的过程，处理节点中的数据并累积从节点的结果来有

效地处理非常大的数据集[33，34]。本文总结了一个文献

综述的努力，并行划分为基础的聚类算法使用MapReduce

框架。

以下是处理大型数据集时面临的挑战

如何从现实世界的海量数据中有效地分析和检索知识

是数据分析师面临的挑战。

在MapReduce范式下，对传统聚类算法进行并行化是

一个挑战.

1.3.

MapReduce

框架的不同使用：概述

真实世界的数据集，如Web日志数据，图像数据和生物

医学数据需要大量的存储空间。有时它包含TB的存储空

间。MapReduce[35，36]是在分布式集群和多核系统中对

这些海量数据集进行集群的最佳选择[37，38]。许多研究

人员已经进行了使 MapReduce 为用户所熟悉，并使

MapReduce 最适合处理大型数据集 [31] 。为了通过

MapReduce处理数据密集型[35]真实世界数据集来提高效

率，许多最近的项目工作都改进了API，并使用不同的配

置参数试验MapReduce[39e45]。MapReduce成功地实现了

在不同平台上处理不同应用程序的大型数据集 [39 ，

49]。虽然MapReduce被设计为在计算节点集群上处理

大型数据集，但它也用于为多核计算机开发应用程序

[47，50，51]。

MapReduce的名字是因为它的执行在很大程度上依赖于

两个名为map和reduce的函数。reduce函数的输入是map函

数的输出

首先将输入数据集划分为多个部分，然后为映射函数分配

特定的数据块。然后将该数据集的处理结果馈送到

reducer ，以进行进一步处理和结果的累积 [52] 。

MapReduce模型之所以如此受欢迎，是因为以下原因：

最大的优点是它提供了自动的等位基因化和分配。

它能容忍错误。可以重试单个任务。为开发人员

提供了一个干净的抽象。

MapReduce程序通常是用Java编写的，Java是开发人员

最流行和最广泛使用的程序之一。

●

Hadoop提供了标准的状态和监控工具。

1.4.

MapReduce

设计

在MapReduce中，数据集的各个部分由映射函数（也称

为映射器）单独处理。reduce函数（也称为reducer）提供

了来自映射器的结果。通过这种方式，MapReduce通过在

映射器和归约器之间划分作业来处理大型数据集[51]。输

入到MapReduce的数据集必须首先转换为键和值对，因为

映射器和归约器只能以这种格式工作。

映射器：（

，

）

[

（

，

）

]

减速器：（

，

）

[

（

，

）

]

其中，

，

分别是输入键和输出键，

和

分别是输入值

和输出值。k

和v

分别是最终密钥和最终值

是输出值列

表。

映射器在输入数据集的不同数据分割上并行执行，并

输出键和值的中间对。归约器从映射器获得这些值，并计

算每个键的最终值。图1提供了MapReduce的工作方式，

包括映射器和归约器。

1.5.

MapReduce

程序执行策略

输入数据集被自动划分为原始数据集的子集，并分配

给映射器函数，以便在集群的不同节点中进行并行处理。

映射器输出的中间值和键然后被分配给归约器。分区数

（p）和分区函数由用户指定[53]。当用户的应用程序在

MapReduce范式上运行时，会发生以下顺序：（1）应用

程序为主节点和从节点创建单独的进程，（2.1）主节点

为映射作业分配节点，（ 2.2）还为Reduce作业分配节

点，（3）对输入数据集进行分区，并将每个分区分配给

特定的映射器节点，（4）映射器作业的输出相应地存储

在本地节点上的文件中，（5）存储在

●

剩余14页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

MapReduce框架下的大数据分区聚类算法研究

基于MapReduce算法的大数据技术研究.doc

论文研究-基于MapReduce的FCM聚类集成算法.pdf

基于MapReduce的图结构聚类算法.pdf

大数据技术基础：MapReduce详解

大数据技术解析：MapReduce与Hadoop核心

大数据文本处理：MapReduce技术详解与设计

大数据与云计算：MapReduce详解与课程精华

大数据云计算课程：MapReduce进阶教程（42页）

大数据面试必备：MapReduce与HDFS解析及面试题集

大数据与云计算：MapReduce IO操作详解与数据完整性保护

最新资源