自动化搭建HDFS HA集群：Zookeeper引导的高可用部署

需积分: 10 5 浏览量更新于2024-09-10 收藏 6KB TXT 举报

本文档主要介绍了如何搭建一个支持自动故障切换（High Availability, HA）的Hadoop Distributed File System (HDFS) 集群，特别强调了在这一过程中Zookeeper的角色。HDFS是Hadoop生态系统的核心组件，用于分布式存储大量数据，而HA则提高了集群的容错性和可用性。首先，我们构建一个基础架构，包括： 1. Zookeeper集群： - 由crxy1、crxy2和crxy3三台机器组成。 - 在crxy1上进行Zookeeper的安装和配置，包括解压并重命名Zookeeper文件，修改conf/zoo.cfg配置文件，设置dataDir为"/usr/local/zookeeper/data"。添加服务器节点信息，如`server.1=crxy2:2888:3888`等，然后创建data目录并写入myid文件。 - 将Zookeeper文件夹通过scp命令复制到hadoop2和hadoop3，确保每个节点都有各自的myid文件。 - 启动Zookeeper服务，在crxy1、crxy2和crxy3上执行`zkServer.sh start`命令。 2. Namenode和Datanode配置： - Namenode通常部署在两台机器（crxy1和crxy2）上，负责元数据管理。 - Datanode分布在多台机器（crxy3、crxy4、crxy5、crxy6）上，存储实际的数据块。 3. Journalnode的配置： - Journalnode是HDFS HA中的关键组件，用于记录Namenode状态更新，crxy1、crxy2和crxy3中的一台或多台机器可以作为Journalnode。 4. 配置文件： - `hadoop-env.sh`: 用于设置Java环境变量，可能包含JAVA_HOME路径和其他环境配置。 - `core-site.xml`: 该文件包含了Hadoop的全局配置，如文件系统类型、默认副本数量等。 - `hdfs-site.xml`: 包含HDFS特定的配置，如Namenode和Datanode的地址、副本策略等。 - `slaves`: 用于指定哪些机器是Datanode的一部分，是HDFS集群的重要配置文件。搭建完成后，需要进行验证，通过`zkCli.sh`命令行工具连接Zookeeper，检查其服务是否正常运行，以及配置文件是否正确加载。这一步骤有助于确认集群的健康状态和各个组件之间的协同工作。搭建自动切换HA的HDFS集群涉及Zookeeper的集群配置、HDFS主备Namenode和Datanode的设置，以及必要的环境变量和配置文件管理。这些步骤对于理解分布式系统的设计和优化集群性能至关重要，尤其对于学习大数据的同学来说，这是一个实战操作的学习机会。

----------------------------------------------------------------------------------------------
2.搭建自动切换HA的HDFS集群(比手工切换ha集群，多了zookeeper集群)
----------------------------------------------------------------------------------------------
zookeeper：crxy1、crxy2、crxy3
namenode：crxy1和crxy2
datanode：crxy3、crxy4、crxy5、crxy6
journalnode：crxy1、crxy2、crxy3

2.0 搭建zookeeper集群，并启动
2.0.1 在crxy1上解压缩，重命名为zookeeper，把conf/zoo_sample.cfg重命名为conf/zoo.cfg
修改文件conf/zoo.cfg
(1)dataDir=/usr/local/zookeeper/data
(2)增加以下内容
server.1=crxy2:2888:3888
server.2=hadoop2:2888:3888
server.3=hadoop3:2888:3888
创建目录mkdir zookeeper/data
写入文件echo 1 zookeeper/data/myid

复制zookeeper文件夹到hadoop2、hadoop3上
scp -rq zookeeper hadoop2:/usr/local
scp -rq zookeeper hadoop3:/usr/local

在hadoop2上执行命令echo 2 zookeeper/data/myid
在hadoop3上执行命令echo 3 zookeeper/data/myid
2.0.2 启动
在crxy1、crxy2、crxy3上，分别执行命令zookeeper/bin/zkServer.sh start
2.0.3 验证
执行命令zookeeper/bin/zkCli.sh
进入后执行ls /

剩余6页未读，继续阅读

liuxiangke0210

粉丝: 137
资源: 14

自动化搭建HDFS HA集群：Zookeeper引导的高可用部署

详述Hadoop HA集群搭建：从HDFSHA到YARNHA

HDFS-HA集群配置实战：从环境准备到Zookeeper集群搭建

Hadoop高可用实践：ZooKeeper与HDFS HA集群搭建

搭建手工切换HA的HDFS集群

Hadoop2.6集群环境搭建（HDFS HA+YARN）

Hadoop2.x高可用配置指南：搭建HA HDFS与YARN

【搭建HDFS HA集群】：手把手教你实现高性能的Hadoop集群

hadoop2.x集群搭建.txt（hdfs和yarn貌似正常，但mapreduce 提交job执行失败，请看我的另一个资源，另一个搭建是成功的）

hadoop2.6.4-ha集群搭建

手动配置HDFS高可用(HA)集群教程

最新资源