进入Linux系统,使用1个节点完成Hadoop伪分布式模式的安装。完成Hadoop的安装以后,运行Hadoop自带的WordCount测试样例。
时间: 2024-11-20 14:27:02 浏览: 15
在Linux系统上设置Hadoop的伪分布式模式通常包括以下几个步骤:
1. **下载和解压Hadoop**: 首先访问Apache Hadoop官网下载适合版本的Hadoop压缩包,然后解压到指定目录,如`/usr/local/hadoop`。
2. **配置环境变量**: 创建一个配置文件`conf/hadoop-env.sh`,添加如下内容:
```
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin
```
3. **创建伪分布配置**: 创建`conf/core-site.xml` 和 `conf/mapred-site.xml` 文件,并配置基本属性,例如:
```xml
core-site.xml:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
mapred-site.xml:
<configuration>
<property>
<name>mapreduce.jobhistory.address</name>
<value>localhost:10020</value>
</property>
<!-- 其他属性配置 -->
</configuration>
```
4. **启动守护进程**: 使用命令行启动Hadoop的守护进程,如NameNode(`bin/start-dfs.sh`),JobTracker(`bin/start-yarn.sh`)。
5. **运行WordCount示例**: 从Hadoop的examples目录下找到wordcount.jar文件,将其上传至HDFS:
```
hdfs dfs -put /path/to/examples/wordcount/*.jar /user/hadoop/
```
然后在本地运行WordCount作业:
```
hadoop jar wordcount.jar wordcount input.txt output
```
6. **检查结果**: WordCount完成后,可以在本地查看`output`目录下的结果。
**注意事项:**
- 以上操作假设你已经有一个可用的Java环境,因为WordCount是一个Java程序。
- 伪分布式模式主要用于开发和测试,不适合大规模生产环境。
阅读全文