在刚刚的基础上 运行hadoop的word count例子,统计/myin9中所有文件的单词个数。并查看结果文件的内容:
时间: 2024-10-16 10:09:49 浏览: 27
为了在Hadoop上运行WordCount示例并统计`/myin9`目录下的所有文本文件中的单词数,你需要按照以下步骤操作:
1. **准备数据**:
确保`/myin9`目录下有文本文件,如果没有,还需要先将之前创建的`your_student_id.txt`文件上传过去。
2. **编写MapReduce程序**:
WordCount是一个经典的Hadoop MapReduce应用程序,通常由Mapper和Reducer两部分组成。如果你使用的是Hadoop Streaming,可以在本地编写map和reduce脚本。例如,mapper.sh(处理输入)和reducer.sh(处理中间键值对),它们会读取文件、分割单词并计数。
3. **运行WordCount**:
在Hadoop集群上运行WordCount的例子,你需要在Hadoop CLI中这样做:
```bash
hadoop jar $HADOOP_HOME/hadoop-streaming.jar \
-input /myin9/* \
-output wordcount_output \
-mapper mapper.sh \
-reducer reducer.sh \
-file mapper.sh,reducer.sh \
-mapperXzy \
-inputformat org.apache.hadoop.mapreduce.lib.input.PathInputFormat \
-outputformat org.apache.hadoop.mapreduce.lib.output.TextOutputFormat
```
其中,`$HADOOP_HOME`需要替换为你实际的Hadoop安装路径。
4. **查看结果**:
一旦WordCount任务完成,可以在HDFS的`wordcount_output`目录下找到结果文件,它通常包含每个单词及其对应的计数值。查看文件内容的命令:
```bash
hdfs dfs -cat wordcount_output/part-r-00000
```
或者使用`hadoop fs -text`命令来查看详细信息。
阅读全文