Hadoop伪分布部署教程：配置与安装详解 - CSDN文库

72 浏览量更新于2024-06-19 收藏 1.14MB PDF 举报

Hadoop的伪分布式模式是一种简化版的集群部署方式，用于本地开发和测试环境中，它模拟了Hadoop在分布式环境中的工作原理，但不涉及真正的网络通信和数据分发。在本文档中，作者详细介绍了如何在Linux系统（如Red Hat Enterprise Linux 6）环境下配置和安装Hadoop 0.20.2-cdh3u4版本的伪分布式模式。首先，确保安装了必要的基础环境，包括： 1. **操作系统**：Linux 2.6.32-358.el6.x86_64 2. **Java Development Kit (JDK)**：使用的是jdk-7u7-linux-i586.tar.gz版本 3. **Hadoop版本**：hadoop-0.20.2-cdh3u4.tar.gz 部署时，选择三台主机进行角色分配： - **gdy192**：作为NameNode和JobTracker节点 - **gdy194**：作为SecondaryNameNode节点 - **gdy195**：作为DataNode和TaskTracker节点配置步骤如下： - 在所有主机上，编辑`/etc/hosts`文件，添加主机别名以便后续的主机间互相访问。作者首先在gdy192上进行了配置，并通过`scp`命令将配置文件复制到gdy194和gdy195上。 - 创建JDK和Hadoop安装目录，如`/usr/gd/`，并在所有三台主机上为Hadoop服务创建用户`hduser`并设置密码。 - 安装过程包括解压和配置文件的编辑，例如修改`core-site.xml`、`hdfs-site.xml`和`mapred-site.xml`等核心配置文件，以指定伪分布式模式下的运行参数，如NameNode和JobTracker的地址。 - 伪分布式模式下，NameNode和JobTracker通常运行在同一台机器上，SecondaryNameNode与NameNode在同一子网内，DataNodes和TaskTrackers则可以在其他机器上。 - 配置完成后，可以在本地机器上启动Hadoop服务，如启动NameNode (`start-dfs.sh`)、JobTracker (`start-mapreduce.sh`)等，并通过这些命令行工具进行数据处理和任务调度的测试。通过这种伪分布式配置，开发者可以无需实际网络环境，方便地在本地开发环境中测试Hadoop应用程序，而不需要担心分布式环境中的网络延迟和数据复制问题。然而，对于生产环境而言，完整的分布式部署更为关键，因为它能提供更好的性能和容错能力。

wq保存退出

配置hadoop的环境变量

[root@gdy192 /]#vim /etc/profile.d/hadoop.sh

添加如下信息：

HADOOP_HOME=/usr/gd/hadoop

PATH=$HADOOP_HOME/bin:$PATH

export HADOOP_HOMEPATH

wq保存退出

使⽤scp分别将这两个⽂件拷贝到gdy194和gdy195机器上的/etc/profile.d/⽬录下⾯。

拷贝到gdy194上

[root@gdy192 /]#scp /etc/profile.d/java.sh root@gdy194:/etc/profile.d/

[root@gdy192 /]#scp /etc/profile.d/hadoop.sh root@gdy194:/etc/profile.d/

拷贝到gdy195上

[root@gdy192 /]#scp /etc/profile.d/java.sh root@gdy195:/etc/profile.d/

[root@gdy192 /]#scp /etc/profile.d/hadoop.sh root@gdy195:/etc/profile.d/

修改/usr/gd/⽬录下的所有⽂件的属主和属组为hduser

[root@gdy192 /]#chown -R hduser.hduser /usr/gd

在gdy192上切换到hduser⽤户下⾯

[root@gdy192 /]#su – hduser

使⽤ssh-keygen和ssh-copy-id为gdy192能⽆密码直接访问gdy194和gdy195下的hduser⽤户

命令：

先制作秘钥⽂件

[hduser@gdy192 ~]$ssh-keygen -t rsa -P ''

剩余19页未读，继续阅读

emma20080101

粉丝: 1081

最新资源