Yarn配置详解：HDFS Federation与架构配置实战

需积分: 10 63 浏览量更新于2024-07-27 收藏 210KB DOCX 举报

"这篇文档详细介绍了YARN配置的相关知识，特别是与HDFS Federation和架构配置相关的部分。文中提到了HDFS-1052引入的多NameNode特性，以及如何在多台机器上搭建Hadoop集群，包括环境配置、软件安装和HDFS-site.xml的编辑。" 在Hadoop生态系统中，YARN（Yet Another Resource Negotiator）作为资源管理器，负责管理和调度集群中的计算资源。YARN与MapReduce结合，提供了高效的数据处理能力。而HDFS Federation是Hadoop Distributed File System（HDFS）的一种扩展，它允许多个NameNode并行运行，提高了系统的可扩展性和可用性。 HDFS Federation的核心改变是将单一的NameNode分解为多个命名空间（NameSpaces），每个NameSpace由一个独立的NameNode管理。这种方式使得大型HDFS集群可以更有效地处理大量的文件系统目录和文件。每个NameNode负责一部分文件系统的元数据，降低了单个节点的压力，增加了系统的整体吞吐量。Backup Node和Secondary NameNode的角色则保持不变，分别用于主备切换和元数据定期备份。在配置HDFS Federation时，我们需要在各节点上进行以下步骤： 1. 准备环境：确保所有机器运行Linux系统，并且相互之间可以通过SSH无密码登录。安装Java 1.6及以上版本，并将JAVA_HOME添加到环境变量$PATH中。安装pssh和pscp工具，以便于在多台机器间同步文件和命令执行。 2. 分发和解压Hadoop软件包：将编译好的Hadoop 0.23版本分发到五台机器上，并在每台机器上解压。 3. 安装Java：在所有机器上安装Java，并设置JAVA_HOME环境变量。 4. 配置HDFS-site.xml：在每台机器的Hadoop配置目录下（如/etc/hadoop/）编辑hdfs-site.xml文件。对于NameNode节点，如Myhost1和Myhost2，需要设置`fs.defaultFS`为该节点的地址（例如`hdfs://Myhost1:9000`）和`dfs.namenode.name.dir`为存储元数据的目录（如`/home/yuling.sh/cluster-data`）。对于DataNode节点，配置将有所不同，主要涉及`dfs.datanode.data.dir`属性，指定数据块存储的位置。 5. 启动和验证集群：启动NameNode和DataNode服务，通过Hadoop的命令行工具检查集群状态，确保所有节点都正常运行。配置完成后，用户可以利用YARN的资源调度机制来运行MapReduce作业，充分利用集群的计算资源。同时，HDFS Federation的架构改进确保了数据读写性能和系统的高可用性，使得大规模数据处理任务更加可靠和高效。

wget

http://labs.renren.com/apache-mirror//hadoop/core/hadoop-0.23.0/hadoop-

0.23.0.tar.gz

wget

http://labs.renren.com/apache-mirror//hadoop/core/hadoop-0.23.0/hadoop-

0.23.0-src.tar.gz

(ps:renren 网提供的 apache 镜像还是挺快的，如果链接不行的话，从列表中选一个

http://www.apache.org/dyn/closer.cgi/hadoop/core/)

2、解压

tar -xvzf hadoop-0.23.0.tar.gz

3、配置集群的环境

在～/.bashrc 文件内添加

#hadoop 0.23 required settings

export HADOOP_DEV_HOME=/home/jiangbing/hadoop-0.23.0 #设置你

hadoop 的路径，需要修改一下

export HADOOP_MAPRED_HOME=${HADOOP_DEV_HOME}

export HADOOP_COMMON_HOME=${HADOOP_DEV_HOME}

export HADOOP_HDFS_HOME=${HADOOP_DEV_HOME}

export YARN_HOME=${HADOOP_DEV_HOME}

export HADOOP_CONF_DIR=/opt/jiangbing/hdfs23/conf #conf 目录也可以按照

Hadoop-0.20.*版本的特点设置在${HADOOP_DEV_HOME}/conf 文件夹下。

export HDFS_CONF_DIR=/opt/jiangbing/hdfs23/conf #可单独设置路径

export YARN_CONF_DIR=${HADOOP_DEV_HOME}/conf #可单独设置路径

如果 home 目录是通过 NFS 挂载共享的，只需在一个节点修改即可，其它节点由于挂载

了/home 目录，可以读取该内容。

4、安装 Java、配置 ssh。由于这部分与 Hadoop-0.20.*的配置相同，这里不再赘述。

5、配置 Hadoop 内部的环境

cd ~/hadoop-0.23.0

cp share/hadoop/common/templates/conf/* $HDFS_CONF_DIR

1）修改 hadoop-env.sh 中的 JAVA_HOME 路径

由于 hadoop-env.sh 默认使用了 export JAVA_HOME=${JAVA_HOME}，如果在配

置 JAVA 环境时，已经添加到 bash 中，这步可以省略。

实验使用的集群节点：gb17,gb18,gb19,gb20,gb21,gb22，配置 gb17，gb18 为两个

namenode，分别作为 ns1 和 ns2，HDFS 配置图如下：

剩余20页未读，继续阅读

wwtfs4

粉丝: 0
资源: 4

Yarn配置详解：HDFS Federation与架构配置实战

YARN相关配置总结

yarn 前端打包工具指定配置文件

yarn 配置环境变量

Hadoop YARN客户端Java文档中英对照手册

Hadoop YARN客户端API文档中英文对照版发布

Flink内存模型详解：YARN配置与内存结构剖析

Hadoop YARN集群配置详解

Hadoop YARN API 2.6.5 中文文档包下载

Hadoop YARN中英文API文档免费赠送包

Hadoop YARN Server Common 中英对照文档

最新资源