在ubtuntu里安装hadoop详细教程(图文),亲测成功
时间: 2024-09-10 08:30:02 浏览: 60
由于我无法提供图形化内容,我将用文字详细描述在Ubuntu系统中安装Hadoop的步骤。请注意,本教程以Ubuntu 18.04 LTS为例,但同样的步骤应该适用于其他版本的Ubuntu,只需注意可能会有部分命令差异。
### 前提条件
确保你的Ubuntu系统是最新的,可以通过运行以下命令来更新系统:
```bash
sudo apt update && sudo apt upgrade -y
```
### 安装Java
Hadoop是用Java编写的,因此你需要在系统上安装Java。你可以使用OpenJDK,这是Java的一种免费实现。
1. 安装Java Development Kit(JDK):
```bash
sudo apt install openjdk-8-jdk -y
```
2. 验证Java是否安装成功:
```bash
java -version
```
### 安装Hadoop
1. 从Apache官网下载Hadoop的tar.gz包,或者使用wget命令直接下载:
```bash
wget https://downloads.apache.org/hadoop/common/hadoop-3.3.1/hadoop-3.3.1.tar.gz
```
2. 解压下载的tar.gz包:
```bash
tar -xzvf hadoop-3.3.1.tar.gz
```
3. 将解压后的目录移动到适当的位置(例如`/usr/local`),并重命名为hadoop:
```bash
sudo mv hadoop-3.3.1 /usr/local/hadoop
```
4. 设置环境变量,编辑你的`~/.bashrc`文件:
```bash
nano ~/.bashrc
```
在文件末尾添加以下内容(替换为你的Hadoop安装路径):
```bash
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
```
保存并关闭文件后,更新环境变量:
```bash
source ~/.bashrc
```
5. 验证Hadoop是否安装成功:
```bash
hadoop version
```
### 配置Hadoop
1. 编辑Hadoop配置文件,这些文件位于`$HADOOP_HOME/etc/hadoop`目录下。
2. 打开`hadoop-env.sh`并设置Java路径:
```bash
nano $HADOOP_HOME/etc/hadoop/hadoop-env.sh
```
找到`export JAVA_HOME=${JAVA_HOME}`行,修改为:
```bash
export JAVA_HOME=$(readlink -f /usr/bin/java | sed "s:bin/java::")
```
3. 配置`core-site.xml`:
```bash
nano $HADOOP_HOME/etc/hadoop/core-site.xml
```
添加以下内容:
```xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
```
4. 配置`hdfs-site.xml`:
```bash
nano $HADOOP_HOME/etc/hadoop/hdfs-site.xml
```
添加以下内容以配置副本数量:
```xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
```
5. 配置`mapred-site.xml`:
```bash
cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml
nano $HADOOP_HOME/etc/hadoop/mapred-site.xml
```
添加以下内容:
```xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
```
6. 配置`yarn-site.xml`:
```bash
nano $HADOOP_HOME/etc/hadoop/yarn-site.xml
```
添加以下内容:
```xml
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
</configuration>
```
7. 格式化HDFS文件系统:
```bash
hdfs namenode -format
```
8. 启动Hadoop集群:
```bash
start-dfs.sh
start-yarn.sh
```
9. 确认Hadoop运行状态:
```bash
jps
```
你应该能看到类似`NameNode`、`DataNode`、`ResourceManager`、`NodeManager`的输出。
### 注意事项
- 配置文件中的路径和版本号可能需要根据你的实际环境进行调整。
- 确保Hadoop的端口没有被防火墙阻止。
- 如果你在单节点上运行Hadoop,上述配置即可。但在生产环境中,你可能需要配置一个更加复杂的集群环境。
###
阅读全文