Ubuntu 10.04 配置Hadoop-0.20.2集群指南

版权申诉

76 浏览量更新于2024-08-04 收藏 53KB DOC 举报

"Ubuntu_10.04下Hadoop-0.20.2集群配置手册" 在本文档中，作者提供了在Ubuntu 10.04操作系统上配置Hadoop-0.20.2集群的详细步骤。配置环境包括两台物理机器，每台机器上运行两个虚拟机（通过VMware以桥接模式），总计四个虚拟机，它们都有各自的独立内网IP。这些虚拟机都运行Ubuntu 10.04，并且通过SecureCRT工具进行远程连接。文件传输建议使用SCP命令。集群配置的关键点如下： 1. **集群结构**：集群由一个NameNode和三个DataNode组成，所有节点间通过局域网连接，能够互相通信。 2. **网络配置**：每个节点都需要在`/etc/hosts`文件中定义其他节点的IP地址和主机名，确保集群内部的名称解析正确。例如，NameNode的IP为192.168.7.132，DataNode1的IP为192.168.8.2等，确保所有节点的`/etc/hosts`文件内容一致。 3. **JDK安装**：首先下载JDK安装包（这里是jdk-6u20-linux-i586.bin），安装后将其移动到`/usr/lib/jdk1.6.0_20`目录，并创建符号链接`/usr/bin/java`指向该版本的Java可执行文件。然后，在所有节点的`/etc/profile`文件中设置`JDK_HOME`环境变量。 4. **SSH无密码登录配置**：为了简化Hadoop集群的管理，需要配置SSH无密码登录。这意味着在NameNode上生成SSH密钥对后，将公钥复制到所有DataNode，这样可以通过SSH登录DataNode而无需每次都输入密码。这个步骤对于自动启动和监控DataNode进程至关重要。 5. **Hadoop安装与配置**：未在摘要中详细说明，但通常包括解压Hadoop二进制包，配置`conf/hadoop-env.sh`，`conf/core-site.xml`，`conf/hdfs-site.xml`和`conf/mapred-site.xml`等文件，设置HDFS的名称节点和数据节点，以及MapReduce的相关参数。 6. **启动与测试**：完成上述配置后，启动Hadoop服务，包括NameNode和DataNode。通过Hadoop自带的工具如`hadoop dfsadmin -report`或Web UI来检查集群状态，确认DataNode是否已正确注册到NameNode，并且能够正常工作。配置Hadoop集群是一个涉及多个层面的过程，包括操作系统级别的网络配置、Java环境的设定、SSH的无密码登录以及Hadoop自身配置文件的修改。每个环节都需要精确无误，以确保集群能够稳定运行。由于Hadoop-0.20.2版本较旧，当前更广泛使用的可能是更新的Hadoop版本，如2.x或3.x系列，但基本配置原理不变，只是部分细节和配置文件可能有所差异。

Ubuntu_10.04 下 Hadoop-0.20.2 集群配置手册

一、软硬件环境的准备

我先交待一下我自己的环境: 两台机器，每台机器上面两个虚机(vmware 均以桥接方式，也就是说 4 个虚

机都有各自独立的内网 IP)都是 ubuntu10.04，宿主机都是 windowsxp，用 SecureCRT（严重推荐，好使）

连接各个副机。最后按下文配置，成功运行~另：机器之间的文件用 SCP 命令吧，好使~~~

////////////////////////////////////////////////////////////////////////////////

集群包含三个节点：1 个 namenode，3 个 datanode，节点之间局域网连接，可以相互 ping 通。操作系

统 ubuntu 10.04 节点 IP 地址分布如下：

hadoop-namenode:

hadoop-datanode1:

hadoop-datanode2:

hadoop-datanode3:

修改/etc/hosts 文件如下：

192.168.7.132 hadoop-namenode

192.168.8.2 hadoop-datanode1

192.168.7.123 hadoop-datanode2

192.168.7.179 hadoop-datanode3

把 namenode 上面的 hosts 文件覆盖所有 datanode 上面的 hosts，是他们内容一致。

安装 JDK 环境：

下载 JDK 安装包 jdk-6u20-linux-i586.bin，进行安装，然后把安装目录移到/usr/lib/ jdk1.6.0_20,

然后 ln –s /usr/lib/jdk1.6.0_20/bin/java /usr/bin/java

在/etc/profile 下面设置 JDK_HOME 变量

export JDK_HOME=/usr/lib/jdk1.6.0_20

JDK 环境的操作需要在所有的 namenode 和 datanode 上面进行操作。

SSH 无密码验证配置

Hadoop 需要使用 SSH 协议，namenode 将使用 SSH 协议启动 namenode 和 datanode 进程，

(datanode 向 namenode 传递心跳信息可能也是使用 SSH 协议，这是我认为的，还没有做深入了解)。许

多教程上介绍 Hadoop 集群配置时只说明了 namenode 上 SSH 无密码登录所有 datanode，我在配置时

下载后可阅读完整内容，剩余6页未读，立即下载

小小哭包

粉丝: 1934
资源: 4081

Ubuntu 10.04 配置Hadoop-0.20.2集群指南

ubuntu-10.04-desktop-amd64.iso.torrent

ubuntu-10.04-alternate-amd64.iso.torrent

ubuntu-10.04-desktop-i386.iso.torrent

在Ubuntu10.04上分布式部署Hadoop0.20.2.doc

ubuntu 10.04-secureCRT 远程登录配置.pdf

ubuntu 10.04-secureCRT 远程登录配置.docx

Ubuntu 10.04下装ns-allinone-2.30成功

网络课程设计---Linux服务器的配置---ubuntu操作系统.doc

在Ubuntu10.04建立QT-linux-embedded-4.6.3开发环境及编译qvfb

ns-2.27-ubuntu_10.04-gcc_4.patch.tar.gz_ns227-gcc34.patch

最新资源