CDH5环境下Hadoop集群动态部署与管理实践

需积分: 20 191 浏览量更新于2024-07-19 收藏 1.57MB PDF 举报

"这篇文档详细记录了一次在CDH5发行版上搭建Hadoop集群的实践，旨在利用AWS的Auto Scaling服务动态管理计算资源。作者提到，离线任务在完成时会释放出资源，因此他们计划创建一个独立的集群来处理这类任务。集群设计为计算节点和存储节点分离，以提高资源利用率。文中提到了具体的角色分配和环境配置信息，包括系统版本、Java版本、Hadoop版本和CDH版本。" 在深入理解Hadoop集群部署之前，首先要明白Hadoop是Apache开源项目，是一个分布式文件系统，常用于大数据处理。CDH（Cloudera Distribution Including Apache Hadoop）是由Cloudera公司提供的一个包含多个大数据处理工具的开源平台，其中包含了Hadoop的多个组件，如HDFS、YARN、MapReduce等。一、Hadoop集群组件及其角色 1. NameNode: 是Hadoop分布式文件系统的主节点，负责管理文件系统的命名空间和数据块映射信息。 2. DataNode: 存储数据的实际节点，执行数据读写操作。 3. ZooKeeper: 一个高可用的分布式协调服务，用于集群中的选举、同步和命名服务。 4. JournalNode: 用于HDFS的NameNode高可用，保存编辑日志的副本。 5. ResourceManager: YARN的全局资源调度器，管理集群的计算资源。 6. NodeManager: YARN的节点管理器，负责单个节点的资源管理和任务执行。 7. WebAppProxyServer: 提供Web访问Hadoop服务的代理服务器。 8. JobHistoryServer: 记录并存储MapReduce作业的历史信息。二、环境配置 1. 系统环境: AWS EC2实例，基于Red Hat的定制系统，内核版本4.9.20-10.30.amzn1.x86_64。 2. Java环境: 必须使用Java 8或更高版本，因为Hadoop 2.x需要Java 7及以上。 3. Hadoop版本: hadoop-2.6.0，这是Hadoop 2.x系列的一个稳定版本。 4. CDH版本: cdh5.11.0，提供了Hadoop 2.x的组件以及其他大数据工具，如Spark、Hive等。三、动态资源管理 AWS的Auto Scaling服务允许根据需求自动调整EC2实例的数量，这在处理离线任务时非常有用。当任务运行时，Auto Scaling会启动额外的计算节点（即NodeManager），任务完成后，这些节点将被释放以节省成本。四、集群部署步骤 1. 安装Java: 确保所有节点都安装了支持Hadoop的Java版本。 2. 安装Hadoop: 使用`yum install`命令或者下载二进制包手动安装。 3. 配置Hadoop: 修改`core-site.xml`、`hdfs-site.xml`、`yarn-site.xml`等配置文件，设置集群参数。 4. 初始化HDFS: 在NameNode节点上格式化HDFS，然后启动所有Hadoop服务。 5. 分布式安装: 将Hadoop的配置文件和二进制文件复制到其他节点。 6. 验证集群: 通过运行测试作业确保集群正常工作。五、注意事项 - 主机名解析: 集群内部通信需要确保所有节点的主机名能在网络中正确解析。 - 高可用性: 为了防止单点故障，NameNode和ResourceManager通常需要配置高可用模式，利用ZooKeeper和JournalNode实现。这个实例提供了一个在CDH5上构建Hadoop集群的实践经验，结合AWS的Auto Scaling服务，为离线任务提供了经济高效且动态的计算资源管理方案。对于初学者，理解这些基本概念和部署步骤是至关重要的，同时，持续监控和优化集群性能也是日常运维工作中不可或缺的部分。

4、配置

a、创建目录并设置权限

mkdir -p /data/hadoop/dfs/nn #datanode 上操作

chown hdfs:hdfs /data/hadoop/dfs/nn/ -R #datanode 上操作

mkdir -p /data/hadoop/dfs/dn #namenode 上操作

chown hdfs:hdfs /data/hadoop/dfs/dn/ -R #namenode 上操作

mkdir -p /data/hadoop/dfs/jn #journalnode 上操作

chown hdfs:hdfs /data/hadoop/dfs/jn/ -R #journalnode 上操作

mkdir /data/hadoop/yarn -p #nodemanager 上操作

chown yarn:yarn /data/hadoop/yarn -R #nodemanager 上操作

b、撰写配置文件

vim /etc/hadoop/conf/capacity-scheduler.xml

<?xml version="1.0"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<property><name>yarn.scheduler.capacity.maximum-

applications</name><value>10000</value></property>

<property><name>yarn.scheduler.capacity.maximum-am-resource-

percent</name><value>0.4</value></property>

<property><name>yarn.scheduler.capacity.resource-

calculator</name><value>org.apache.hadoop.yarn.util.resource.DefaultResourceCalculator<

/value></property>

<property><name>yarn.scheduler.capacity.node-locality-

delay</name><value>30</value></property>

<property><name>yarn.scheduler.capacity.root.queues</name><value>default,server,offline

</value></property>

<property><name>yarn.scheduler.capacity.root.default.capacity</name><value>95</value></

property>

<property><name>yarn.scheduler.capacity.root.default.maximum-

capacity</name><value>100</value></property>

<property><name>yarn.scheduler.capacity.root.default.user-limit-

factor</name><value>100</value></property>

<property><name>yarn.scheduler.capacity.root.default.state</name><value>running</value>

</property>

<property><name>yarn.scheduler.capacity.root.default.acl_submit_applications</name><val

ue>*</value></property>

<property><name>yarn.scheduler.capacity.root.default.acl_administer_queue</name><value>

*</value></property>

<property><name>yarn.scheduler.capacity.root.server.capacity</name><value>0</value></pr

operty>

<property><name>yarn.scheduler.capacity.root.server.maximum-

capacity</name><value>5</value></property>

<property><name>yarn.scheduler.capacity.root.server.user-limit-

factor</name><value>100</value></property>

<property><name>yarn.scheduler.capacity.root.server.acl_submit_applications</name><valu

e>haijun.zhao</value></property>

本文档由Linux公社 www.linuxidc.com 整理

剩余19页未读，继续阅读

tornadom

粉丝: 0
资源: 1

CDH5环境下Hadoop集群动态部署与管理实践

helm安装私有仓库及搭建hadoop实例过程文档

Hadoop集群中WordCount示例

hadoop集群搭建详解

机房hadoop集群部署

hadoop集群部署之双虚拟机版

Hadoop与Spark集群部署实例.pdf

EasyHadoop深度解析：Hadoop集群部署与生产环境指南

【高可用Hadoop集群部署指南】：DFSZKFailoverController实战技巧

Hadoop平台部署及实例运行

Hadoop集群HDP-2.6.4的部署

最新资源