centos配置hadoop
时间: 2025-01-06 07:32:36 浏览: 17
### 配置Hadoop于CentOS上的指南
#### 安装Java环境
为了使Hadoop正常运行,首先需要安装JDK。可以通过yum命令来完成这一操作[^1]。
```bash
sudo yum install java-1.8.0-openjdk-devel.x86_64
```
确认已成功安装并设置默认版本:
```bash
java -version
alternatives --config java
```
#### 下载与解压Hadoop包
前往Apache官方网站下载适合的Hadoop压缩文件,并将其放置到服务器中的适当位置进行解压。
```bash
wget https://archive.apache.org/dist/hadoop/common/hadoop-3.2.1/hadoop-3.2.1.tar.gz
tar xf hadoop-3.2.1.tar.gz -C /usr/local/
ln -s /usr/local/hadoop-3.2.1 /usr/local/hadoop
```
#### 设置环境变量
编辑`~/.bashrc`或`/etc/profile.d/hadoop.sh`文件,在其中加入如下内容以便全局生效[^2]。
```bash
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
source ~/.bashrc # 或者 source /etc/profile
```
#### 修改配置文件
进入Hadoop目录下的`etc/hadoop`子目录,调整必要的XML配置文档以及shell脚本参数[^4]。
对于单节点集群而言,主要修改以下几个方面:
- `core-site.xml`: 指定NameNode地址及临时工作路径;
- `hdfs-site.xml`: 设定DataNode存储数据的位置;
- `yarn-site.xml`: 如果计划启用YARN,则需指定ResourceManager的相关属性;
- `mapred-site.xml`: 明确MapReduce框架使用的计算引擎,默认情况下应指向YARN;
另外还需注意同步这些更改至其他机器(如果是多节点部署),可以利用rsync工具实现自动化传输任务[^3]。
#### 启动服务
切换回sbin目录下执行启动指令序列,依次开启Namenode、Datanodes和其他辅助组件的服务进程。
```bash
cd $HADOOP_HOME/sbin/
./start-dfs.sh
./start-yarn.sh
jps # 查看当前主机上正在运行的Java程序列表,验证各守护线程是否均已激活
```
以上即是在CentOS操作系统之上搭建简易版本地伪分布式模式Hadoop平台的大致流程概述。
阅读全文