Linux下Hadoop分布式配置详解与实战

需积分: 9 72 浏览量更新于2024-07-28 收藏 1.03MB PDF 举报

本资源是一份关于在Linux环境下搭建和配置Hadoop分布式系统的详细指南。作者詹坤林在2010年5月分享了他基于CentOS平台配置Hadoop-0.19.1的经验，但同时也指出，这份文档适用于其他版本的Linux系统以及后续的Hadoop版本（如Hadoop-0.20及以后）。主要内容分为以下几个部分： 1. **集群网络环境介绍**：文档首先介绍了集群的基本架构，包括一个NameNode（名称节点）和两个DataNode（数据节点），它们通过局域网相连，彼此可以互相ping通。每个节点都有明确的IP地址和主机名。 2. **配置文件详解**： - **/etc/hosts文件配置**：这是为了确保节点之间的通信，需要正确配置主机名与IP地址的映射关系。 - **SSH无密码验证**：讲解了两种配置方法，一是只允许Namenode无密码登录所有Datanode，二是配置所有节点间无密码SSH验证，增强安全性。 3. **JDK安装与Java环境变量**： - **安装JDK1.6**：因为早期Hadoop版本对Java版本有特定要求，确保安装合适的JDK版本。 - **Java环境变量配置**：设置JAVA_HOME、PATH等环境变量，使得系统能识别Hadoop所需的Java环境。 4. **Hadoop集群配置**：涉及Hadoop核心配置文件（如hadoop-site.xml、core-site.xml、hdfs-site.xml 和 mapred-site.xml），对于0.20版本之后的Hadoop，这些配置文件进行了拆分，需要了解如何正确组织和配置这些独立的文件。 5. **Hadoop集群启动**：指导读者如何启动Hadoop服务，确保各个组件正常运行。 6. **Hadoop使用**： - **客户机与HDFS交互**：包括客户端配置、查看HDFS目录、管理用户、上传文件、理解数据副本机制、熟悉参数配置以及执行Hadoop命令。 - **作业提交**：讲解了如何在客户端提交MapReduce任务，提供了一个WordCount示例，并说明了在不同模式下编译和运行应用的步骤。 7. **附录**：包含了具体的程序代码和总结，以及针对Hadoop配置的一些建议，如使用主机名而非IP地址进行配置，开启必要的网络端口，以及设置SSHD服务为开机启动。这份文档不仅提供了Hadoop的安装和配置过程，还深入讲解了其基本操作和管理，是学习和维护Linux环境下Hadoop分布式系统的重要参考资料。

Linux 下 Hadoop 的分布式配置和使用

“ssh 节点 ip 地址”来验证。

配置完毕，在 namenode 上执行“ssh 本机，所有数据节点”命令，因为 ssh

执行一次之后将不会再询问。

2.1 选择二：配置所有节点之间 SSH 无密码验证

(0)原理

节点 A 要实现无密码公钥认证连接到节点 B 上时，节点 A 是客户端，节点 B

是服务端，需要在客户端 A 上生成一个密钥对，包括一个公钥和一个私钥，而后

将公钥复制到服务端 B 上。当客户端 A 通过 ssh 连接服务端 B 时，服务端 B 就会

生成一个随机数并用客户端 A 的公钥对随机数进行加密，并发送给客户端 A。客

户端 A 收到加密数之后再用私钥进行解密，并将解密数回传给 B，B 确认解密数

无误之后就允许 A 进行连接了。这就是一个公钥认证过程，其间不需要用户手工

输入密码。重要过程是将客户端 A 公钥复制到 B 上。

因此如果要实现所有节点之间无密码公钥认证，则需要将所有节点的公钥都

复制到所有节点上。

(1)所有机器上生成密码对

(a)所有节点用 hadoop 用户登陆，并执行以下命令，生成 rsa 密钥对:

ssh-keygen -t rsa

这将在/home/hadoop/.ssh/ 目录下生成一个私钥 id_rsa 和一个公钥

id_rsa.pub。

(b)将所有 datanode 节点的公钥 id_rsa.pub 传送到 namenode 上:

cp id_rsa.pub datanode01.id_rsa.pub

scp datanode01.id_rsa.pub namenode 节点 ip 地址:/home/hadoop/.ssh

......

cp id_rsa.pub datanoden.id_rsa.pub

scp datanoden.id_rsa.pub namenode 节点 ip 地址:/home/hadoop/.ssh

(c)namenode 节点上综合所有公钥(包括自身)并传送到所有节点上

cp id_rsa.pub authorized_keys 这是 namenode 自己的公钥

cat datanode01.id_rsa.pub >> authorized_keys

......

cat datanode0n.id_rsa.pub >> authorized_keys

然后使用 SSH 协议将所有公钥信息 authorized_keys 复制到所有 DataNode

的.ssh 目录下

scp authorized_keys data 节点 ip 地址:/home/hadoop/.ssh

这样配置过后，所有节点之间可以相互 SSH 无密码登陆，可以通过命令

“ssh 节点 ip 地址”来验证。

配置完毕，在 namenode 上执行“ssh 本机，所有数据节点”命令，因为 ssh

执行一次之后将不会再询问。

剩余19页未读，继续阅读

wyj1986

粉丝: 10
资源: 5

Linux下Hadoop分布式配置详解与实战

Linux下Hadoop伪分布式配置.pdf

Hadoop分布式集群容错验证.pdf

hadoop伪分布式安装.pdf

Hadoop分布式安装和配置1.Hadoop分布式安装方式； 2.掌握Linux中JDK安装方法； 3.掌握Linux中Hadoop安装方法、步骤； 4.掌握SSH免秘钥配置。

Hadoop 分布式配置修改的 6 个文件

Hadoop分布式实例展示

hadoop分布式配置需要修改哪六个文件

hadoop.dll和winutils.exe有什么用

linux安装hadoop完全分布式

hadoop伪分布式 配置问题

最新资源

hadoop伪分布式配置问题