VMware下搭建CDH5.4.9 Hadoop 3节点集群详解

需积分: 10 11 下载量 124 浏览量 更新于2024-09-10 收藏 356KB DOCX 举报
本文档详细介绍了如何在虚拟机环境中,通过CDH 5.4.9版本的Hadoop构建一个用于测试的三节点集群。该集群由一台主节点(Master)和两台备节点(Standby)组成,每台虚拟机配置了1个CPU核心、3GB内存以及20GB磁盘空间。目标是搭建一个轻量级的测试环境,适合于本地开发和维护工作,处理的数据量限定在100万条以下。 在选择操作系统上,推荐使用64位的RHEL Server 6.5。Hadoop版本采用的是Hadoop 2.6.0,而JAVA版本则为JDK 7u79。元数据存储方面,采用了MySQL 5.6.29。以下是集群的主要组件及其部署: 1. 主机(Master): - HMaster:HBase的主控节点,负责协调region server的操作。 - HBRE:HBase REST API服务,提供远程访问接口。 - HBTS:HBase Thrift服务,用于客户端与HBase的交互。 - NN:NameNode,HDFS的命名节点,管理文件系统的元数据。 - SNN:Secondary NameNode,辅助NN,定期合并元数据。 - B:Balancer,用于HDFS数据块的动态负载均衡。 - HFS:HttpFS,提供HDFS的Web访问接口。 - NFSG:NFSGateway,HDFS的网络文件系统接口。 - DN:DataNode,存储实际的数据块。 2. 其他组件: - HMS:Hive Metastore,存储Hive元数据。 - WHC:WebHCatServer,Hive的Web服务接口。 - HS2:HiveServer2,提供Hive的SQL查询服务。 - HS:Hue Server,提供Hadoop相关的图形化界面。 - Cloudera Management Service(CMS):包括Service Monitor (SM), Activity Monitor (AM), Host Monitor (HM), Reports Manager (RM)等,用于管理整个集群。 - OS:Oozie Server,工作流管理系统。 - SS:SolrServer,分布式搜索服务。 - RM:ResourceManager,YARN的资源管理器。 - JHS:JobHistoryServer,记录作业历史信息。 - NM:NodeManager,YARN上的节点管理服务。 - ZK:Zookeeper Server,用于集群的协调和服务发现。 在集群搭建过程中,首先需要安装必要的依赖组件,如MySQL(仅在Master上安装)、JAVA和相关数据库连接工具。接着,对所有机器进行网络配置,确保内部通信畅通。存储目录的规划也非常重要,需要合理分配各组件的数据和日志存放位置,确保性能和可维护性。 总体来说,这篇文档为读者提供了从操作系统选择到组件安装,再到网络配置和存储规划的完整步骤,适用于想要快速搭建小型Hadoop集群进行测试或学习的人员。通过遵循这些指导,读者能够顺利地搭建出符合需求的CDH 5.4.9 Hadoop集群环境。