CentOS7安装Hadoop2.7.3
时间: 2025-01-04 13:16:38 浏览: 10
### 安装配置Hadoop 2.7.3于CentOS 7
#### 准备工作
确保所有服务器的时间保持一致,这可以通过NTP服务来实现。关闭防火墙和服务隔离设置以减少网络通信障碍。
#### 卸载原有JDK版本
由于CentOS可能预装了OpenJDK, 需要先将其移除再安装适合Hadoop运行环境所需的Oracle JDK[^3]:
```bash
sudo yum remove java*
```
#### 下载并安装Java Development Kit (JDK)
获取最新版的JDK压缩包,并按照如下命令完成部署:
```bash
cd /opt/
wget --no-check-certificate --no-cookies -O jdk-8uXXX-linux-x64.tar.gz https://download.oracle.com/otn-pub/java/jdk/8uXXX-bYY/jdk-8uXXX-linux-x64.tar.gz
tar zxvf jdk-8uXXX-linux-x64.tar.gz
mv jdk1.8.* jdk8
rm -rf jdk-8uXXX-linux-x64.tar.gz
```
更新系统的`$PATH`和`JAVA_HOME`环境变量,在`~/.bashrc`文件中加入以下内容:
```bash
export JAVA_HOME=/opt/jdk8
export PATH=$JAVA_HOME/bin:$PATH
source ~/.bashrc
java -version
```
#### 获取Hadoop软件包
前往Apache官方网站下载页面找到对应版本号的Hadoop tarball链接地址,利用wget工具进行下载操作之后解压到指定目录下。
```bash
mkdir ~/software && cd $_
wget http://archive.apache.org/dist/hadoop/core/hadoop-2.7.3/hadoop-2.7.3.tar.gz
tar zxf hadoop-2.7.3.tar.gz
ln -sfn ./hadoop-2.7.3 hadoop
echo 'export HADOOP_HOME=~/software/hadoop' >> ~/.bash_profile
echo 'export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin' >> ~/.bash_profile
source ~/.bash_profile
```
#### 修改Hadoop配置文件
进入Hadoop配置文件夹编辑核心参数设定,具体路径为/root/software/hadoop/etc/hadoop[^1]:
- `core-site.xml`: 设置临时存储位置以及默认FS URI.
```xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://master:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/app/hadoop/tmp</value>
</property>
</configuration>
```
- `hdfs-site.xml`: 指定NameNode数据保存副本数量等属性.
```xml
<configuration>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
<!-- Other properties -->
</configuration>
```
- `yarn-site.xml`: YARN框架相关选项定义.
```xml
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<!-- Additional settings here -->
</configuration>
```
- `mapred-site.xml`: MapReduce作业执行模式切换至YARN之上.
```xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
```
另外还需要调整slaves列表文档,列出集群内所有的Slave节点名称以便启动时自动连接它们。
#### 初始化HDFS文件系统
作为Master节点上的管理员账户执行下面指令初始化分布式文件系统结构:
```bash
hdfs namenode -format
```
#### 启动Hadoop集群组件
通过sbin下的脚本批量开启各个守护进程,包括但不限于ResourceManager、NodeManager等等。
```bash
start-dfs.sh
start-yarn.sh
mr-jobhistory-daemon.sh start historyserver
```
此时应该可以在浏览器里查看Web UI状态页,默认端口分别为50070(HDFS), 8088(YARN ResourceManager).
针对提到的具体问题,如果发现某些从属节点未能正常注册成为DataNodes或是无法显示相关信息,则需检查这些主机之间的连通性和权限授予情况;对于8080端口不可达的情况,请确认Application Master是否已成功启动并且监听该端口号。
阅读全文