使用Hadoop自带的jar包,统计单词的个数,hdfs输出目录为test_output;
时间: 2024-02-20 19:56:10 浏览: 121
hadoop word count 单词统计
您可以使用Hadoop自带的MapReduce程序WordCount来实现统计单词个数的功能,具体步骤如下:
1. 将需要统计的文本文件上传到HDFS上,假设文件路径为 /input/word.txt 。
2. 执行以下命令,运行WordCount程序:
```
hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar wordcount /input/word.txt /test_output
```
其中,$HADOOP_HOME表示Hadoop的安装路径,hadoop-mapreduce-examples-*.jar为Hadoop自带的MapReduce程序包。
3. 等待程序执行完毕,可以通过以下命令查看输出结果:
```
hdfs dfs -cat /test_output/part-r-00000
```
其中,/test_output/part-r-00000为WordCount程序的输出结果文件。
注意:在运行WordCount程序之前,需要确保Hadoop集群已经启动并且正常运行。
阅读全文