Hadoop完全分布式搭建实战:4台虚拟机配置详记

需积分: 6 16 下载量 128 浏览量 更新于2024-07-19 1 收藏 1.44MB PDF 举报
"这篇文档详细记录了在大数据领域如何使用Hadoop进行完全分布式环境的搭建,作者通过4台虚拟机的配置,展示了包括FTP、Zookeeper、Hadoop在内的组件安装和配置过程。" 正文: Hadoop完全分布式环境的搭建是一项复杂而重要的任务,尤其对于初学者来说,它能够帮助理解大数据处理的基础架构。以下将详细解析这个过程中的关键知识点: 1. **集群服务器规划**: - 集群通常包含多台服务器,这里使用4台虚拟机作为节点,模拟真实环境。 - 工具选择:`xshell` 和 `secureCRT` 用于远程连接和管理Linux服务器,`VMware Workstation` 作为虚拟机平台。 2. **环境搭建**: - 每台虚拟机配置:20GB硬盘,1GB内存,运行的是CentOS7操作系统。 - 主机名分别设定为 `master`, `slave1`, `slave2`, `slave3`,对应Hadoop集群的角色分配。 - IP地址规划:`192.168.86.128` 至 `192.168.86.131` 分别对应各台机器。 3. **JDK安装**: - 安装Java开发工具包(JDK)是运行Hadoop的前提,这里使用的是`jdk-8u161-linux-x64.tar.gz`。 4. **Hadoop安装**: - Hadoop版本为 `hadoop-2.7.5.tar.gz`,这是一款稳定且广泛使用的版本。 - 安装Hadoop涉及解压、配置环境变量、修改配置文件如`core-site.xml`, `hdfs-site.xml`, `yarn-site.xml`, `mapred-site.xml`等。 5. **Zookeeper安装**: - Zookeeper是Hadoop中协调服务的重要组件,版本为`zookeeper-3.4.11.tar.gz`。 - 配置Zookeeper集群模式,修改`zoo.cfg`文件,设置server节点。 6. **Hadoop分布式文件系统(HDFS)配置**: - 配置Hadoop的主从结构,`master`作为NameNode和ResourceManager,其他三台作为DataNode和NodeManager。 - NameNode负责元数据管理,DataNode存储实际数据,NodeManager执行MapReduce任务。 - 配置`hdfs-site.xml`以指定副本数量和数据块大小等参数。 7. **高可用(HA)设置**: - 在此环境中,采用了双NameNode设置,增强了HDFS的可靠性。 - JournalNode配合NameNode实现HA,每个节点都配置了JournalNode服务。 8. **YARN(Yet Another Resource Negotiator)配置**: - YARN是Hadoop的资源管理系统,负责调度计算资源。 - 配置`yarn-site.xml`以设定ResourceManager和NodeManager的相关参数。 9. **启动与测试**: - 启动Hadoop和Zookeeper服务,通过`jps`命令检查各节点上的进程是否正常运行。 - 使用Hadoop自带的`fsck`命令检查HDFS健康状态,`hadoop fs -ls` 查看文件系统内容。 10. **辅助工具**: - 为了方便管理,安装了`xshell` 和 `xftp`,它们提供了图形化的SSH连接和文件传输功能。 这个过程不仅包含了Hadoop集群的基本搭建,还涉及到故障转移和高可用性配置,对于理解Hadoop的运行机制和集群管理有极大的帮助。每一步都需要仔细验证和调试,确保所有节点都能正确通信和工作。同时,作者强调了记录笔记的重要性,以避免重复踩坑,这也是学习和实践过程中值得借鉴的方法。