XEN下Hadoop 2.6全分布环境搭建指南

需积分: 10 41 浏览量更新于2024-07-22 1 收藏 2.41MB PDF 举报

本文主要介绍了如何基于XEN虚拟化技术实现Apache Hadoop 2.6.0的全分布式环境搭建，包括多机部署。首先，实验目的是构建一个Hadoop集群，以支持大数据处理和分布式计算任务。整个过程针对的是Ubuntu 14.04 64位操作系统，使用了Xen 4.4作为虚拟化平台，并且实验在拥有4台虚拟机的环境中进行，每台虚拟机配置了相应的硬件资源，如AMD速龙IIX4 641处理器，8GB DDR3 1600内存，以及500GB硬盘。在部署架构方面，该过程分为五个阶段： 1. 前期准备： - 虚拟机hostname设置：确保每台虚拟机都有唯一的hostname，避免以".数字"结尾，因为这可能导致NameNode服务启动失败。通过`sudo vi /etc/hostname`修改并保存，同时修改`/etc/hosts`文件，使主机名和IP对应，便于后期的通信和管理。 - JDK安装：尽管未详细描述，但指出参考了其他教程在每台虚拟机上安装JDK 7，安装路径设为`/usr/lib/jvm/java-7-sun`。 - 用户创建：创建专用的hadoop用户组和用户，如`groupadd -g 2000 hadoop` 和 `useradd -u 2000 -g 2000 hadoop`，并为hadoop用户设置密码。 - SSH免密码登录：为了简化节点间的自动通信，需要在master节点上生成SSH密钥对，以实现无密码登录。 2. 安装Hadoop： - 主要安装Hadoop 2.6.0版本，包括HDFS（Hadoop Distributed File System）和YARN（Yet Another Resource Negotiator）组件。这个阶段可能涉及下载Hadoop源码包，解压并配置环境变量，以及运行必要的安装脚本。 3. 配置Hadoop： - 包括编辑Hadoop配置文件，如`core-site.xml`, `hdfs-site.xml`, `yarn-site.xml`等，以适应分布式环境，指定存储目录，网络设置等。 - 配置NameNode和DataNode，以及其他Hadoop服务的主机和端口信息。 - 启动Hadoop服务，包括HDFS的NameNode、DataNode和SecondaryNameNode，以及YARN的ResourceManager和NodeManager。 4. 验证集群功能： - 检查各个节点是否能正确启动和交互，通过命令行工具如`jps`确认服务运行状态。 - 进行简单的测试任务，如上传文件到HDFS，运行MapReduce任务，验证数据的存储和处理效果。 5. 监控和维护： - 集群上线后，需要定期监控性能，检查日志，以及处理可能出现的故障和优化。本文提供的步骤是作者实践经验总结，对于想要在XEN环境下搭建Hadoop集群的读者具有较高的参考价值，尤其是对于初次接触Hadoop分布式环境的用户来说，这是一个实用且详尽的指南。

步骤二：在 4 台虚拟机上安装 jdk

可参考我原来的教程，此处不再赘述。

本文 jdk 的安装目录为/usr/lib/jvm/java-7-sun

步骤三：在 4 台虚拟机上创建专门用户 hadoop

groupadd -g 2000 hadoop --在每个节点上创建 hadoop 用户和用户组

useradd -u 2000 -g 2000 hadoop --hadoop 用户

passwd hadoop --为 hadoop 用户设置密码

注：本文为安装方便并没有新建用户，而是采用了默认的 kaierlong 用户。

步骤四：配置 ssh 免密码登录

hadoop 工作时，各节点要相互通讯，正常情况下 linux 之间通讯要提供用户名、密码（目的

是保证通讯安全），如果需要人工干预输入密码，显然不方便，做这一步的目的，是让各节

点能自动通过安全认证，不影响正常通讯。

4.1 先在 master 上，生成公钥、私钥对

以 hadoop 身份登录到系统

进入个人主目录，默认为/home/kaierlong：

cd ~

ssh-keygen -t rsa -P ''

注：最后是二个单引号

即：以 rsa 算法，生成公钥、私钥对，-P ''表示空密码。该命令运行完后，会在个人主目录

下生成.ssh 目录，里面会有二个文件 id_rsa（私钥） ,id_rsa.pub(公钥)。

4.2 导入公钥

cat .ssh/id_rsa.pub >> .ssh/authorized_keys

执行完以后，可以在本机上测试下，用 ssh 连接自己，即：ssh localhost (或 ssh master)，如果

不幸还是提示要输入密码，说明还没起作用，还有一个关键的操作。

修改文件权限，否则不起作用：

chmod 600 .ssh/authorized_keys

然后再测试下 ssh localhost ，如果不需要输入密码，就连接成功，表示 ok，一台机器已经

搞定了。

4.3 在其它机器上生成公钥、密钥，并将公钥文件复制到 master

a) 以 kaierlong 身份登录其它三台机器 slave1、slave2、slave3，执行 ssh-keygen -t rsa -P '' 生

成公钥、密钥。

b) 然后用 scp 命令，把公钥文件发放给 master（即：刚才已经搞定的那台机器）。

slave1 上：

scp .ssh/id_rsa.pub kaierlong@master:/home/kaierlong/id_rsa_01.pub

slave2 上：

scp .ssh/id_rsa.pub kaierlong@master:/home/kaierlong/id_rsa_02.pub

剩余14页未读，继续阅读

郎神

粉丝: 10
资源: 8

XEN下Hadoop 2.6全分布环境搭建指南

配置xen环境及hadoop集群环境的学习笔记

搭建基于云计算的海量数据挖掘平台-研究实现.doc

搭建基于云计算的开源海量数据挖掘平台

基于云计算的软件测试.docx

开源项目搭建私有云：Eucalyptus与Abiquo等方案解析

基于云计算的开源海量数据挖掘平台构建

基于云计算的开源大数据挖掘平台构建与应用

利用Linux云计算实现高可用性

RuoYi-Vue 全新 Pro 版本，优化重构所有功能

(源码)基于Spring Boot和MyBatis的订餐管理系统.zip

最新资源