配置开发环境 - Hadoop安装与伪分布式集群搭建
时间: 2023-06-02 20:01:57 浏览: 266
在进行Hadoop开发前,需要先配置好Hadoop的开发环境,包括安装Hadoop和搭建伪分布式集群。以下是Hadoop安装和伪分布式集群搭建的步骤:
1. 下载Hadoop
在Hadoop官网下载最新版本的Hadoop压缩包。当前最新版本是3.3.1。
2. 解压缩Hadoop
将下载的Hadoop压缩包解压缩到本地目录,比如/opt/hadoop。解压缩后,会得到一个hadoop-3.3.1目录。
3. 配置Hadoop环境变量
在~/.bashrc文件中添加以下内容:
export HADOOP_HOME=/opt/hadoop/hadoop-3.3.1
export PATH=$PATH:$HADOOP_HOME/bin
然后执行source ~/.bashrc,使配置生效。
4. 配置Hadoop
进入Hadoop的安装目录,修改配置文件。以下是必须修改的配置文件:
- core-site.xml
在Hadoop安装目录的/etc/hadoop/目录下,创建core-site.xml文件,并添加以下内容:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
这个配置指定了Hadoop的默认文件系统为HDFS,并且HDFS的访问地址为localhost:9000。
- hdfs-site.xml
在Hadoop安装目录的/etc/hadoop/目录下,创建hdfs-site.xml文件,并添加以下内容:
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
这个配置指定了HDFS的副本数为1。
- mapred-site.xml
在Hadoop安装目录的/etc/hadoop/目录下,创建mapred-site.xml文件,并添加以下内容:
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
这个配置指定了MapReduce的框架为YARN。
- yarn-site.xml
在Hadoop安装目录的/etc/hadoop/目录下,创建yarn-site.xml文件,并添加以下内容:
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
</configuration>
这个配置指定了NodeManager的辅助服务为mapreduce_shuffle,并且指定了ShuffleHandler类。
5. 格式化HDFS
在Hadoop安装目录下,执行以下命令:
$ hdfs namenode -format
这个命令会格式化HDFS,清空HDFS中的所有文件。
6. 启动Hadoop
在Hadoop安装目录下,执行以下命令:
$ start-all.sh
这个命令会启动Hadoop的所有组件,包括NameNode、DataNode、ResourceManager、NodeManager等。
7. 验证Hadoop是否正常工作
在浏览器中访问http://localhost:8088/,可以看到YARN的Web界面。在浏览器中访问http://localhost:50070/,可以看到HDFS的Web界面。
至此,Hadoop的安装和伪分布式集群搭建完成。可以开始进行Hadoop的开发了。
阅读全文