MapReduce集群优化策略与关键配置详解

需积分: 9 132 浏览量更新于2024-09-07 收藏 21KB DOCX 举报

"MapReduce开发优化文档主要关注如何提升MapReduce作业在集群中的性能和效率。文档涵盖了多个关键配置选项的调整，以确保资源的有效利用和优化作业执行。以下是几个核心知识点的详细说明： 1. **合理分配Map和Reduce任务数量**： - 在MapReduce作业中，map任务和reduce任务的数量直接影响作业执行的时间和资源利用率。应根据集群的硬件配置和作业需求合理设置。通常，单个节点上的map任务和reduce任务数量不应过多，以免造成资源竞争和过度负载。 2. **io.file.buffer.size**： - 这个参数决定了Hadoop在读写文件时的缓冲区大小，影响IO操作的性能。默认值是4KB，但可以根据实际需求调整为64KB，以提高数据传输速度。不过，增加缓冲区大小也会增加内存消耗，所以需要权衡。 3. **dfs.balance.bandwidthPerSec**： - HDFS的平衡器在调整数据块分布时，需要限制其使用的网络带宽，防止影响其他作业。该参数定义了每个DataNode在平衡操作时的最大带宽使用量，应根据集群的网络条件进行适当设置，以保证作业的正常运行。 4. **dfs.block.size**： - 数据块的大小直接影响MapReduce作业的map任务数量。默认值是64MB，但通常推荐设置为128MB。更大的数据块可以减少map任务的总数，从而降低调度开销，提高整体效率。 5. **dfs.datanode.du.reserved**： - 这个配置用于为MapReduce任务保留一定的硬盘空间。由于MapReduce的本地目录（mapred.local.dir）可能与DataNode共用存储资源，所以需要设置一个保留值，以避免数据处理过程中的资源冲突。 6. **其他优化策略**： - 除了上述配置，还有其他如 speculative execution（推测执行）的设置，用于并行执行可能延迟的任务，以及压缩选项（如map.output.compress），可以减少网络传输的数据量，提高作业性能。优化MapReduce作业不仅涉及到这些配置参数的调整，还应考虑作业的输入格式、数据预处理、数据局部性、JVM内存设置等多个方面。合理的优化策略能够显著提高集群资源的利用率，缩短作业执行时间，同时减少不必要的资源浪费。"

集群的优化

1、合理分配 map 和 reduce 任务的数量（单个节点上 map 任务、reduce 任务的最大数

量）

2、其他配置

io.le.buer.size

hadoop 访问文件的 IO 操作都需要通过代码库。因此，在很多情况下，

io.le.buer.size 都被用来设置缓存的大小不论是对硬盘或者是网络操作来讲，较大的

缓存都可以提供更高的数据传输，但这也就意味着更大的内存消耗和延迟

这个参数要设置为系统页面大小的倍数，以 byte 为单位，默认值是 4KB，一般情况下，

可以设置为 64KB（65536byte）

dfs.balance.bandwidthPerSec

HDFS 平衡器检测集群中使用过度或者使用不足的 DataNode，并在这些 DataNode 之

间移动数据块来保证负载均衡，如果不对平衡操作进行带宽限制，那么它会很快就会抢占

所有的网络资源，不会为 Mapreduce 作业或者数据输入预留资源

参数 dfs.balance.bandwidthPerSec 定义了每个 DataNode 平衡操作所允许的最大使

用带宽，这个值的单位是 byte，这是很不直观的，因为网络带宽一般都是用 bit 来描述的。

因此，在设置的时候，要先计算好。DataNode 使用这个参数来控制网络带宽的使用，但

不幸的是，这个参数在守护进程启动的时候就读入，导致管理员没办法在平衡运行时来修

改这个值

dfs.block.size****默认 128M

dfs.block.size 的单位是 byte，默认值是 67108864*(64MB)。对于很多情况来说，

134217728*(128MB)更加合适

对于一个 Mapreduce 作业（尤其是用子类 FileInputFormat 定义输入格式的作业），

对文件的每个数据块会启用一个 map 任务来处理

这就意味这数据块的大小显著地影响 Mapreduce 作业的效率

dfs.datanode.du.reserved 保留空间ÈÈ用于 mapreduce 使用È默认为 0

当 DataNode 向 NameNode 汇报可用的硬盘大小的时候，它会把所有 dfs.data.dir 所

列出的可用的硬盘大小总和发给 NameNode

由于 mapred.local.dir 经常会跟 DataNode 共享可用的硬盘资源，因为我们需要为

Mapreduce 任务保留一些硬盘资源。dfs.datanode.du.reserved

定义了每个 dfs.data.dir 所定义的硬盘空间需要保留的大小，以 byte 为单位。默认情况

下，该值为 0.也就意味着 HDFS 可以使用每个数据硬盘的所有空间

节点硬盘资源耗尽时就会进入读模式。因此，建议每个硬盘都为 map 任务保留最少

10GB 的空间，如果每个 Mapreduce 作业都会产生大量的中间结果

下载后可阅读完整内容，剩余6页未读，立即下载

ycjunhua

粉丝: 560
资源: 74

MapReduce集群优化策略与关键配置详解

Hadoop技术内幕 深入理解MapReduce架构设计与实现原理 高清完整中文版PDF下载

MapReduce技术优化大数据密度峰值搜索算法

Hadoop集群配置及MapReduce开发手册

阿里云 专有云企业版 V3.7.0 E-MapReduce 开发指南 20190320.pdf

阿里云 专有云企业版 V3.8.0 E-MapReduce 开发指南 20190621.pdf

阿里云 专有云企业版 V3.12.0 E-MapReduce 开发指南 20200609.pdf

Hadoop集群配置与MapReduce开发实战指南

Hadoop 0.20.0集群配置与MapReduce开发实战指南

阿里云E-MapReduce开发指南 V3.6.1 - 20190326

Hadoop集群配置与MapReduce开发实战：SSH整合指南

最新资源

Hadoop技术内幕深入理解MapReduce架构设计与实现原理高清完整中文版PDF下载

阿里云专有云企业版 V3.7.0 E-MapReduce 开发指南 20190320.pdf

阿里云专有云企业版 V3.8.0 E-MapReduce 开发指南 20190621.pdf

阿里云专有云企业版 V3.12.0 E-MapReduce 开发指南 20200609.pdf