Hadoop集群构建指南：从安装到测试与管理

需积分: 10 28 浏览量更新于2024-09-11 收藏 221KB PDF 举报

本资源是一份名为"Hadoop-构建集群.pdf"的文档，详细讲解了如何构建、配置和管理Apache Hadoop集群的过程。文档分为五个主要部分： 1. **集群规范 (Cluster Specification)**：这部分着重于硬件选择，针对2014年的典型配置，一个用于运行Hadoop分布式文件系统（HDFS）数据节点和YARN节点管理器的机器可能包括具有足够存储空间和处理能力的服务器。硬件需求通常涉及内存、CPU、磁盘以及网络性能，以确保Hadoop组件能够高效运行。 2. **集群的构建和安装 (Cluster Setup and Installation)**：提供了三种安装Hadoop集群的方法： - **Apache tarballs**：用户可以直接从Apache项目下载官方发布的二进制或源码包进行安装。 - **Packages**：RPM和Debian软件包可以从Apache Bigtop项目获取，这是针对特定操作系统的一站式解决方案。 - **Hadoop集群管理工具**：如Cloudera Manager和Apache Ambari是专门设计用来简化Hadoop集群安装和管理的工具，它们提供Web界面，便于用户在集群生命周期中进行操作，是推荐的搭建方式，尤其适合非技术背景的用户和管理员。 3. **Hadoop配置 (Hadoop Configuration)**：这是关键环节，文档详细阐述了如何配置Hadoop的各个组件，如核心配置文件（core-site.xml）、HDFS配置（hdfs-site.xml）等，以适应不同的环境和需求。配置可能涉及到调整内存分配、数据块大小、副本策略、日志路径等参数。 4. **安全性 (Security)**：在Hadoop集群部署中，安全是至关重要的。文档会介绍如何设置访问控制、身份验证、加密通信等措施，确保数据的安全性和隐私保护。 5. **利用基准评测程序测试 Hadoop 集群 (Benchmarking a Hadoop Cluster)**：最后，文档指导读者如何通过基准测试评估Hadoop集群的性能，以便优化和监控系统的效能。这包括选择合适的测试工具，如Apache Hadoop的内置工具或第三方工具，以及如何解读和分析测试结果。综上，这份文档为Hadoop集群构建者提供了全面的指南，从基础安装到高级配置，再到性能评估，涵盖了Hadoop集群运维的各个方面，是构建和管理大规模分布式计算环境的重要参考。

构建

Hadoop

集群

-----------------------------------------------------------------------------------------------------------------------------------------

安装选项：

1. Apache tarballs

：

The Apache Hadoop project and related projects provide binary (and source) tarballs for each release.

2. Packages

：

RPM and Debian packages are available from the Apache Bigtop project http://bigtop.apache.org/

3. Hadoop cluster management tools

：

Cloudera Manager and Apache Ambari are examples of dedicated tools for installing and

managing a Hadoop cluster over its whole lifecycle. They provide a simple web UI,

and are the recommended way to set up a Hadoop cluster for most users and operators.

10.1

集群规范

(Cluster Specification)

-----------------------------------------------------------------------------------------------------------------------------------------

硬件：

-------------------------------------------------------------------------------------------------------------------------------------

a typical choice of machine for running an HDFS datanode and a YARN node manager in 2014 would have had the following specifications:

处理器：

Two hex/octo-core 3 GHz CPUs

内存：

64−512 GB ECC RAM[68]

存储器：

12−24 × 1−4 TB SATA disks

网络：

Gigabit Ethernet with link aggregation

Hadoop

一般使用多核

CPU

和多磁盘，以充分利用硬件的强大功能。

Master node scenarios

------------------------------------------------------------------------------------------------------------------------------------

根据集群的大小，运行

master daemon

由很多不同的配置：

the namenode, secondary namenode, resource manager, and history server

For a small cluster (on the order of 10 nodes), it is usually acceptable to run the namenode and the resource manager on

a single master machine (as long as at least one copy of the namenode ’s metadata is stored on a remote filesystem).

namenode

对内存要求较高，因为它要在内存中保持整个名称空间文件和块的元数据信息。

网络拓扑

(Network Topology)

------------------------------------------------------------------------------------------------------------------------------------

A common Hadoop cluster architecture consists of a two-level network topology

。

每个机架有

30-40

台服务器，内部用一台

10GB

交换机，向上连接一台核心交换机或路由器

(

至少

10GB

，或更大带宽

)

，使机架间互联。该架构的突出

特点是同一机架内部的节点之间的总带宽要远高于不同机架上节点间的带宽。

机架注意事项

(Rack awareness)

--------------------------------------------------------------------------------------------------------------------------------------

为了获得

Hadoop

最佳性能，配置

Hadoop

以让其了解网络拓扑状况极为重要。如果集群只有一个机架，就无须做什么，因为这是默认配置。然而，对于

多机架集群，需要将节点映射到机架。这允许

Hadoop

在节点上部署

MapReduce

任务时更优先选择机架内

(within-rack)

传输

(

拥有更多的可用带宽

)

而非

跨机架

(off-rack)

传输。

HDFS

也能够更智能地部署块复本以达到性能和弹性的平衡。

网络位置例如节点和机架表现在一棵树中，从而反映出位置间的网络距离

(network distance)

。

namenode

使用网络位置确定复本的放置位置，

MapReduce

调度器使用网络位置确定其

map

任务输入的最近复本。

示例：对于网络，机架拓扑描述为两个网络位置

———— /switch1/rack1

和

/switch1/rack2.

因为集群中只有一个顶级的

(top-level)

交换机，位置可以

简化为

/rack1

和

/rack2.

Hadoop

配置必须指定节点地址和网络位置的一个映射。这个映射由一个

Java

接口描述，

DNSToSwitchMapping:

public interface DNSToSwitchMapping {

public List<String> resolve(List<String> names);

}

names

参数是一个

地址列表，返回值是一个对应的网络位置字符串列表。

net.topology.node.switch.mapping.impl

配置属性定义了

一个

DNSToSwitchMapping

接口实现

, namenode

和

resource manager

用于解析工作节点

(worker node)

的网络位置。

对于本例的网络，我们将

node1, node2, and node3

映射到

/rack1,

以及将

node4, node5, and node6

映射到

/rack2.

大多数安装不需要自己实现接口，然而，因为默认实现是

ScriptBasedMapping,

即运行一个用户定义的脚本来确定映射，脚本位置由属性：

net.topology.script.file.name

控制。脚本必须接受可变数量的参数，要映射的主机名或

地址，并且必须将对应的网络位置发送到标准输出，空格分隔。

如果没有指定脚本位置，默认是将所有节点映射为一个网络位置，称为

/default-rack

10.2

集群的构建和安装

(Cluster Setup and Installation)

-----------------------------------------------------------------------------------------------------------------------------------------

1. Installing Java

：

Java 7

或更高版本

-------------------------------------------------------------------------------------------------------------------------------------

2. Creating Unix User Accounts

：

-------------------------------------------------------------------------------------------------------------------------------------

It’s good practice to create dedicated Unix user accounts to separate the Hadoop processes from each other, and from other services

running on the same machine. The HDFS, MapReduce, and YARN services are usually run as separate users, named hdfs, mapred, and yarn,

respectively. They all belong to the same hadoop group.

最佳实践是在同一台机器上，为

Hadoop

进程分别创建专用的

Unix

用户帐户，并与其他服务分开。

HDFS, MapReduce,

以及

YARN

通常作为不同的用户

运行，用户名分别为

hdfs, mapred, and yarn.

他们同属于一个

hadoop

用户组。

安装

Hadoop (Installing Hadoop)

-------------------------------------------------------------------------------------------------------------------------------------

% cd /usr/local

% sudo tar xzf hadoop-x.y.z.tar.gz

同样，需要改变

Hadoop

文件的用户名和组：

% sudo chown -R hadoop:hadoop hadoop-x.y.z

It’s convenient to put the Hadoop binaries on the shell path too:

% export HADOOP_HOME=/usr/local/hadoop-x.y.z

% export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

配置

SSH (Configuring SSH)

-------------------------------------------------------------------------------------------------------------------------------------

Hadoop

的控制脚本

(but not the daemons)

依靠

SSH

执行整体集群

(cluster-wide)

的操作。例如，停止和启动集群上所有

daemon

的脚本。注意，控制

脚本是可选的，整体集群的操作也可以通过其他机制执行，例如一个分布式脚本或专用的

Hadoop

管理应用程序。

为了无间断工作，

SSH

要设置为允许

hdfs

和

yarn

用户从集群任何机器上无密码登录。实现这个任务最简单的方法是生成一个

public/private

密钥对

并把它们放到一个

NFS

位置以在整个集群上共享。

首先，通过如下指令生成一个

RSA key

对。需要做两次，一次作为

hdfs

用户，一次作为

yarn

用户。

% ssh-keygen -t rsa -f ~/.ssh/id_rsa

纵然想要无密码登录，没有密码的密钥不认为是个好的实践，因此当提示时，应输入一个密码。使用

ssh-agent

来避免为每一个连接输入密码。

下一步，需要确保

public key

存在于集群上所有要连接机器的

~/.ssh/authorized_keys

文件中。如果用户的主目录存储在一个

NFS

系统上，

密钥可以通过输入如下指令跨集群共享

(first as hdfs and then as yarn)

：

% cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

如果用户主目录没有使用

NFS

共享，则

public key

需要通过其他方法共享，例如，

ssh-copy-id

。

Test that you can SSH from the master to a worker machine by making sure ssh-agent is running, and then run ssh-add to store your

passphrase. You should be able to SSH to a worker without entering the passphrase again.

5. Configuring Hadoop

-------------------------------------------------------------------------------------------------------------------------------------

格式化

HDFS

文件系统

( Formatting the HDFS Filesystem )

-------------------------------------------------------------------------------------------------------------------------------------

在能够使用之前，一个崭新的

HDFS

安装需要被格式化。格式化过程通过创建存储目录

(storage directories)

和名称节点

(namenode)

的持久化数据

下载后可阅读完整内容，剩余6页未读，立即下载

devalone

粉丝: 108

Hadoop集群构建指南：从安装到测试与管理

Spark高手指南：构建Hadoop分布式集群

深入掌握Hadoop实战技巧与集群技术

Zookeeper 3.4.6深入解析与实例教程

16.5、Hadoop -- 03.pdf

hadoop大数据培训零基础学习hadoop-北京尚学堂.pdf

搭建Hadoop HA分布式集群.pdf

hadoop-shell.pdf

第6章-Hadoop HA集群启动.pdf

09-Hadoop编程.pdf

Hadoop权威指南-中文版.pdf

最新资源