MapReduce Shuffle过程解析与YARN架构深度探讨

需积分: 28 122 浏览量更新于2024-07-17 收藏 846KB PDF 举报

"yarn架构与讲解 - 大数据yarn资源调度详解，侧重于MapReduce的Shuffle阶段和性能调优" 在YARN（Yet Another Resource Negotiator）架构中，它是Apache Hadoop的一个核心组件，负责管理和调度大数据处理任务的资源。YARN的设计目的是将Hadoop的资源管理和应用程序的执行分开，从而提高系统的整体效率和可扩展性。YARN通过全局的ResourceManager（RM）和分布式应用程序的ApplicationMaster（AM）协同工作，实现了细粒度的资源分配和监控。在MapReduce中，Shuffle阶段是连接Map任务和Reduce任务的关键环节。它的主要任务是整理和分发Map任务的输出，以便Reduce任务能够正确地进行聚合操作。Shuffle过程可以分为以下几个步骤： 1. **排序（Sorting）**：每个Map任务的输出首先会被按照键进行局部排序，保证相同键的数据被聚集在一起。 2. **分区（Partitioning）**：根据Reduce任务的数量，数据被分割到不同的分区中，确保相同键的数据被发送到同一个Reduce任务。 3. **溢写（Spilling）**：当内存中的数据达到一定阈值时，Map任务会将数据写入本地磁盘，形成临时文件。这个过程中，数据仍然会保持排序状态。 4. **合并（Merging）**：多个溢出文件会在Map任务结束前合并成一个较大的文件，进一步减少磁盘I/O。 5. **网络传输（Network Transfer）**：当Reduce任务启动时，它会与各个Map任务节点通信，请求并下载对应分区的数据。这个阶段，优化网络带宽的使用至关重要。在性能调优方面，以下是一些关键设置参数： - `mapreduce.reduce.shuffle.parallelcopies`：设置并行复制Shuffle数据的线程数，增加此值可以加速数据传输，但也会增加网络负载。 - `mapreduce.map.sort.spill.percent`：设定内存达到多少比例时开始溢写数据到磁盘，防止过多内存占用。 - `mapreduce.reduce.shuffle.input.buffer.percent`：设定Reduce任务用于接收Shuffle数据的内存比例，需要平衡内存使用和计算需求。优化Shuffle阶段的目标主要包括： - **减少网络传输量**：通过合理设置分区函数和压缩算法，如Gzip或LZO，可以减小传输的数据量。 - **利用内存而非磁盘**：优化内存管理，尽量减少磁盘I/O，通过调整`mapreduce.job.reduce.shuffle.memory Fraction`等参数控制内存使用。 - **避免数据倾斜**：数据倾斜会导致某些Reduce任务处理的数据量远大于其他任务，可以通过哈希分区策略或自定义分区类来均衡数据分布。理解并优化Shuffle阶段对于提升MapReduce作业的性能至关重要，尤其是在大规模数据处理场景中。通过深入分析和调整相关参数，可以在不牺牲任务正确性的前提下，有效提升集群的资源利用率和处理速度。

如 map 端的细节图，Shuffle 在 reduce 端的过程也能用图上标明的三点来概括。当前 reduce copy 数

据的前提是它要从 JobTracker 获得有哪些 map task 已执行结束，这段过程不表，有兴趣的朋友可以关注

下。Reducer 真正运行之前，所有的时间都是在拉取数据，做 merge，且不断重复地在做。如前面的方式

一样，下面我也分段地描述 reduce 端的 Shuffle 细节：

1. Copy 过程，简单地拉取数据。Reduce 进程启动一些数据 copy 线程(Fetcher)，通过 HTTP（jetty）

方式请求 map task 所在的 TaskTracker 获取 map task 的输出文件。因为 map task 早已结束，这些文件就归

TaskTracker 管理在本地磁盘中。

2. Merge 阶段。这里的 merge 如 map 端的 merge 动作，只是数组中存放的是不同 map 端 copy 来的数

值。Copy 过来的数据会先放入内存缓冲区中，这里的缓冲区大小要比 map 端的更为灵活，它基于 JVM

的 heap size 设置，因为 Shuffle 阶段 Reducer 不运行，所以应该把绝大部分的内存都给 Shuffle 用。这里需

要强调的是，merge 有三种形式：1)内存到内存 2)内存到磁盘 3)磁盘到磁盘。默认情况下第一种形式不

启用，让人比较困惑，当内存中的数据量到达一定阈值，就启动内存到磁盘的 merge。与 map 端类似，

这也是溢写的过程，这个过程中如果你设置有 Combiner，也是会启用的，然后在磁盘中生成了众多的溢

写文件。第二种 merge 方式一直在运行，直到没有 map 端的数据时才结束，然后启动第三种磁盘到磁盘

的 merge 方式生成最终的那个文件。

3. Reducer 的输入文件。不断地 merge 后，最后会生成一个“最终文件”。为什么加引号？因为这个文

件可能存在于磁盘上，也可能存在于内存中。对我们来说，当然希望它存放于内存中，直接作为 Reducer

的输入，但默认情况下，这个文件是存放于磁盘中的。至于怎样才能让这个文件出现在内存中，后面有

时间我再说。当 Reducer 的输入文件已定，整个 Shuffle 才最终结束。然后就是 Reducer 执行，把结果放

到 HDFS 上。

剩余23页未读，继续阅读

Like_Amy

粉丝: 0
资源: 1

MapReduce Shuffle过程解析与YARN架构深度探讨

YARN框架原理及运行机制

深入解析YARN架构设计与实现原理

Hadoop技术内幕：深度探索YARN架构与实现

Hadoop技术内幕：权威解析YARN架构与实现

Hadoop技术内幕：深度解析YARN架构与实现

Hadoop技术内幕：深入解析YARN架构与实现

YARN架构与Hadoop集群协作：实战案例与新一代计算平台

YOLO算法-城市电杆数据集-496张图像带标签-电杆.zip

(177406840)JAVA图书管理系统毕业设计(源代码+论文).rar

(35734838)信号与系统实验一实验报告

最新资源