深入理解Hadoop配置参数

需积分: 10 38 浏览量更新于2024-09-15 收藏 155KB PDF 举报

"关于Hadoop配置的详细解析" Hadoop是一个开源的分布式计算框架，由Apache基金会开发，主要用于处理和存储海量数据。理解Hadoop的配置是优化和管理Hadoop集群的关键。以下是对Hadoop配置中一些重要参数的详细解读： 1. **版本**： Hadoop的版本不同可能会影响到配置选项和行为，例如0.19.2是早期的一个稳定版本，后续版本可能会增加新的特性和改进。 2. **Hadoop集群组成**： - **HDFS（Hadoop Distributed File System）**：包括NameNode、SecondaryNameNode和DataNode。 - **NameNode**：主节点，负责管理HDFS的元数据，如文件系统的命名空间和文件块映射信息。 - **SecondaryNameNode**：辅助NameNode，定期合并NameNode的编辑日志以减轻NameNode的压力，不是热备。 - **DataNode**：数据节点，实际存储数据块，执行数据读写操作。 - **MR（MapReduce）**：包括JobTracker和TaskTracker。 - **JobTracker**：MapReduce作业的主控，负责调度任务和资源管理。 - **TaskTracker**：工作节点，执行JobTracker分配的任务。 3. **配置文件**： - **hadoop-default.xml**：提供Hadoop集群的默认配置，一般不建议直接修改。 - **hadoop-site.xml**：每个节点的个性化配置文件，用于覆盖默认配置，根据集群情况进行定制。 4. **主要配置项**： - **fs.default.name**：定义HDFS的默认文件系统，即NameNode的URI，例如`hdfs://hostname/`。 - **mapred.job.tracker**：JobTracker的地址，格式为`hostname:port`，指示MapReduce任务调度的位置。 - **dfs.name.dir**：NameNode保存元数据和事务日志的本地目录，可以通过逗号分隔的目录列表实现数据的冗余备份。 - **dfs.data.dir**：DataNode存储数据块的本地目录，同样可以设置多个目录以实现冗余和负载均衡。 - **mapred.system.dir**：MapReduce在HDFS上的系统目录，存放系统文件。 - **mapred.local.dir**：本地磁盘上用于MapReduce任务的临时文件目录，可设置多个目录以分散负载。 - **mapred.tasktracker.{map|reduce}.tasks.maximum**：TaskTracker上同时运行的最大map或reduce任务数，默认值通常为2。 - **dfs.hosts/dfs.hosts.exclude**：白名单和黑名单文件，用于控制哪些主机可以作为DataNode运行或被排除。理解并正确配置这些参数对于优化Hadoop集群性能、提高数据处理效率和确保集群稳定性至关重要。在实际操作中，还需要考虑网络环境、硬件资源、数据量以及特定应用的需求来调整配置。同时，随着Hadoop版本的迭代，新的配置项和最佳实践也会不断出现，因此持续学习和更新知识是必要的。

hadoop配置含义(继续更新中)

转载自：http://blog.chinaunix.net/space.php?uid=22477743&do=blog&cuid=2046639 ；http://

longmans1985.blog.163.com/blog/static/7060547520113652122555/

0. 版本

0.19.2

1. hadoop cluster组成

1.1. HDFS

1.1.1 Name Node (1台)

1.1.2 Secondary Name Node (1台, 可选)

1.1.3 Data Node (若干台)

1.2. MR

1.2.1 Master [JobTracker] (1台)

1.2.2 Slave [TaskTracker] (若干台)

2. 配置文件

2.1 hadoop-default.xml

hadoop集群的默认配置, 通常不需要修改这个配置文件.

2.2 hadoop-site.xml

hadoop集群里面的机器个性化配置文件, 通常在这里指定机器的个性化配置.

3. 配置项

3.1 fs.default.name

定义: Name Node的URI

描述: hdfs://hostname/

3.2 mapred.job.tracker

定义: JobTracker的地址

描述: hostname:port

3.3 dfs.name.dir

定义: Name Node 保存元数据和事务日志的本地目录

描述: 逗号分隔的目录列表用于指定多份数据的冗余备份.

3.4 dfs.data.dir

定义: Data Node 保存块文件的本地目录

描述: 逗号分隔的目录列表指定这些目录用于保存块文件.

3.5 mapred.system.dir

定义: HDFS上MapReduce保存系统文件的目录.

描述:

3.6 mapred.local.dir

定义: 保存MapReduce临时文件的本地目录

描述: 逗号分隔的目录列表用于指定多个目录同时做为临时数据空间

3.7 mapred.tasktracker.{map|reduce}.tasks.maximum

定义: TaskTracker上最多能够同时运行的map/reduce task数目.

描述: 默认map/reduce task数目各为2.

3.8 dfs.hosts/dfs.hosts.exclude

定义: Data Node白名单/黑名单文件

描述:

3.9 mapred.hosts/mapred.hosts.exclude

定义: MapReduce白名单/黑名单文件

描述:

3.10 mapred.queue.names

定义: 队列名

描述: hadoop MapReduce系统默认有一个"default"的Job队列(pool).

3.11 dfs.block.size

定义： hdfs默认块大小

昵称：xiao晓

园龄：1年6个月

粉丝：0

关注：2

+加关注

2011年8月

日一二三四五六

31 1 2 3 4 5 6

7 8 9 10 11 12 13

14 15 16 17 18 19 20

21 22

23 24 25 26 27

28 29 30 31 1 2 3

4 5 6 7 8 9 10

搜索

找找看

谷歌搜索

常用链接

我的随笔

我的评论

我的参与

深入理解Hadoop配置参数

Hadoop配置文件表（如需要请下载附件）

hadoop配置

hadoop 配置文件

hadoop2.7配置文件

Hadoop 三个配置文件的参数含义说明

安装hadoop_配置hadoop的运行环境视频

"Hadoop配置文件参数详解及获取默认配置方法

Hadoop配置详解：核心、HDFS与MapReduce端口及默认属性

【Hadoop配置误区】：SecondaryNameNode正确设置方法揭秘

如何配置hadoop的配置文件

最新资源