hadoop3.2.1伪分布式
时间: 2025-01-07 09:09:10 浏览: 5
### 配置Hadoop 3.2.1伪分布式集群
#### 解压并配置环境变量
下载 Hadoop 安装包后将其放置于 `/opt` 或其他指定位置,并解压缩该文件。随后,需配置 Hadoop 的环境变量以便命令可以在任何地方执行[^1]。
```bash
tar -zxvf hadoop-3.2.1.tar.gz -C /opt/
export PATH=$PATH:/opt/hadoop-3.2.1/bin:/opt/hadoop-3.2.1/sbin
```
#### 修改核心配置文件
进入 `hadoop-3.2.1/etc/hadoop` 文件夹下编辑必要的 XML 配置文档来适应单节点上的伪分布模式[^3]:
##### core-site.xml
此文件用于定义 NameNode 和 DataNode 使用的默认文件系统以及临时存储路径。
```xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/app/hadoop/tmp</value>
</property>
</configuration>
```
##### hdfs-site.xml
设定副本数量和其他参数以优化性能表现。
```xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
```
##### yarn-site.xml
YARN 是负责资源管理和作业调度的服务组件;对于伪分布式部署而言,仅需简单配置如下属性即可满足需求。
```xml
<configuration>
<!-- Site specific YARN configuration properties -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>localhost</value>
</property>
</configuration>
```
##### mapred-site.xml
MapReduce 应用程序运行所需的相关设置,在某些情况下可能需要创建这个文件(如果不存在的话),并将 MapReduce 框架名称指向 YARN。
```xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
```
#### 初始化NameNode
完成上述更改之后,应该先格式化 NameNode 来初始化其元数据结构[^4]。
```bash
bin/hdfs namenode -format
```
#### 启动服务
依次启动 HDFS 和 YARN 服务进程,可以通过 Web 浏览器访问 http://localhost:50070 (HDFS) 及 http://localhost:8088 (ResourceManager UI)。
```bash
sbin/start-dfs.sh
sbin/start-yarn.sh
```
#### 测试安装成果
最后一步是验证整个系统的正常运作情况,可以利用内置的例子测试 MapReduce 功能是否可用[^5]。
```bash
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.1.jar pi 16 1000
```
阅读全文