Hadoop 完全分布式搭建 详细流程
时间: 2024-01-19 13:02:20 浏览: 84
以下是 Hadoop 完全分布式搭建的详细流程:
1. 准备工作
在开始搭建之前,需要准备好以下工作:
- 安装好 Java 环境,并配置好 JAVA_HOME 环境变量。
- 下载 Hadoop 的稳定版本,并解压缩到指定目录。
2. 配置 Hadoop
进入 Hadoop 的解压目录,找到 conf 目录下的 hadoop-env.sh 文件,编辑此文件,将 JAVA_HOME 设置为你的 Java 安装目录。
接着,编辑 core-site.xml 文件,添加以下配置:
```
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
```
其中,fs.defaultFS 指定 Hadoop 的默认文件系统,此处设置为 HDFS 的服务地址为 localhost:9000。
接着,编辑 hdfs-site.xml 文件,添加以下配置:
```
<configuration>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/path/to/hadoop-data/namenode</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/path/to/hadoop-data/datanode</value>
</property>
</configuration>
```
其中,dfs.replication 指定了数据块的副本数量,此处设置为 2;dfs.namenode.name.dir 指定了 NameNode 存储数据的目录;dfs.datanode.data.dir 指定了 DataNode 存储数据的目录。
3. 配置 SSH
Hadoop 在分布式环境下需要使用 SSH 远程连接节点,因此需要配置 SSH。
首先,检查本机是否已经安装了 SSH,如果没有安装,则需要安装 SSH。
接着,生成 SSH 公钥和私钥:
```
ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
```
这个命令会在 ~/.ssh 目录下生成 id_rsa 和 id_rsa.pub 两个文件,其中 id_rsa 为私钥,id_rsa.pub 为公钥。
将公钥拷贝到所有节点上,并将其添加到 authorized_keys 文件中:
```
ssh-copy-id user@node1
ssh-copy-id user@node2
...
```
4. 启动 Hadoop
启动 Hadoop 集群前,需要先格式化 NameNode,该操作会清空 NameNode 存储的所有数据:
```
bin/hdfs namenode -format
```
接着,启动 Hadoop:
```
sbin/start-all.sh
```
此时,Hadoop 集群就启动成功了。你可以通过以下命令查看 Hadoop 运行状态:
```
jps
```
其中,NameNode 和 DataNode 分别代表 NameNode 和 DataNode 的进程。
5. 测试 Hadoop
最后,可以通过以下命令测试 Hadoop:
```
bin/hadoop fs -mkdir /test
bin/hadoop fs -put /path/to/local/file /test/file
bin/hadoop fs -cat /test/file
```
其中,第一条命令是在 HDFS 中创建一个 test 目录,第二条命令是将本地文件上传到 HDFS 中,第三条命令是查看 HDFS 中的文件内容。
至此,Hadoop 完全分布式搭建的流程就结束了。
阅读全文