Hadoop 2.9.2 + Zookeeper 3.4.14 完整搭建教程

需积分: 10 1 下载量 132 浏览量 更新于2024-09-13 收藏 429KB DOCX 举报
本文档详细介绍了如何在Hadoop2.9.2版本和Zookeeper3.4.14环境下搭建一个高可用(HA)的分布式计算框架。首先,我们假设在四台虚拟机上进行操作,每台机器都已安装了JDK1.8,并且配置了环境变量。以下步骤将带你完成整个搭建过程: 1. **虚拟机设置**:根据提供的图片,需要确保虚拟机的配置正确,包括网络设置和磁盘空间,以便Hadoop的正常运行。 2. **安装Hadoop**:在node1机器上,从上传的hadoop-2.9.2.tar.gz文件中解压并创建软链接,将Hadoop的安装目录指向软链接,如`/home/hadoop2.9.2`。这样,可以方便地管理Hadoop的安装。 3. **配置Hadoop环境**: - 修改`/home/hadoop2.9.2/etc/hadoop/hadoop-env.sh`文件,将`JAVA_HOME`设置为JDK1.8的路径,这里设置为`/home/tools/jdk1.8.0_221`,确保Hadoop使用正确的Java版本。 - 配置HDFS的高可用性(HA)参数: - 在`hdfs-site.xml`中,设置`dfs.nameservices`为集群名,这里为`weibCluster`。 - 将`dfs.ha.namenodes`设置为包含两个NameNode的列表,如`nn1`和`nn2`。 - 分别配置每个NameNode的RPC地址(`dfs.namenode.rpc-address`)和HTTP访问地址(`dfs.namenode.http-address`),对应不同的机器IP和端口(如`node1:8020`和`node2:8020`)。 - 同样,为JournaledNode(JournalNode)配置相应的属性,尽管这部分内容没有在提供的部分列出,通常也会在`hdfs-site.xml`中进行配置,以支持日志同步和故障转移。 4. **Zookeeper配置**:虽然文档未明确提及Zookeeper的配置,但通常在Hadoop HA环境中,Zookeeper是作为元数据存储和协调服务的关键组件。你需要配置Zookeeper的服务地址,以及与Hadoop NameNode的交互信息,以实现集群的健康监控和故障恢复。 5. **启动服务**:配置完成后,分别启动Hadoop的各个服务,如HDFS、YARN、MapReduce等,通过命令行或配置脚本启动NameNodes、DataNodes、JobTrackers等。同时,也需要启动Zookeeper服务,以保证整个系统的协同工作。 6. **测试和验证**:搭建完成后,通过命令行工具(如`hadoop dfsadmin`、`hdfs dfs`、`yarn`等)进行基本的健康检查和功能测试,确认Hadoop集群已经正常运行,数据读写、任务调度等功能均能正常使用。 这个文档提供了一个基础的Hadoop2.9.2 HA集群搭建指南,实际操作时可能还需要考虑防火墙规则、权限设置、数据备份等因素。在生产环境中,建议结合更全面的文档和最佳实践,确保系统的稳定性和安全性。