已知hdfs://hadoop01:9000/words.txt文件内容: Andy Andy Bruce Andy Bruce Cherry 使用spark-shell方式,实现以下要求: 1、读取words.txt文件内容 2、对读取到的字符串内容进行分割(用空格分割) 3、将单词映射成元组 4、对元组中相同的单词进行聚合 5、打印统计结果
时间: 2024-02-11 09:05:16 浏览: 62
好的,我知道你想让我演示如何通过Spark Shell实现对words.txt文件内容的统计。下面是实现步骤:
1.启动Spark Shell
在终端中输入以下命令启动Spark Shell:
```
spark-shell
```
2.读取words.txt文件内容
在Spark Shell中输入以下命令读取words.txt文件内容:
```
val textFile = sc.textFile("hdfs://hadoop01:9000/words.txt")
```
3.对读取到的字符串内容进行分割
在Spark Shell中输入以下命令对读取到的字符串内容进行分割(用空格分割):
```
val words = textFile.flatMap(line => line.split(" "))
```
4.将单词映射成元组
在Spark Shell中输入以下命令将单词映射成元组:
```
val tuples = words.map(word => (word, 1))
```
5.对元组中相同的单词进行聚合
在Spark Shell中输入以下命令对元组中相同的单词进行聚合:
```
val counts = tuples.reduceByKey(_ + _)
```
6.打印统计结果
在Spark Shell中输入以下命令打印统计结果:
```
counts.foreach(println)
```
这样,你就可以在Spark Shell中看到words.txt文件内容的统计结果了。
注意:在执行以上命令之前,需要确保words.txt文件已经上传到hdfs://hadoop01:9000/路径下。
阅读全文