一、sparkCore完成单词计数统计(读取word.txt数据源) (30分) 1.创建SparkConf对象,设置appName和Master地址 2.创建SparkContext对象,它是所有任务计算的源头,它会创建DAGScheduler和TaskScheduler 3.读取数据文件,RDD可以简单的理解为是一个集合,集合中存放的元素是String类型 4.切分每一行,获取所有的单词 5.每个单词记为1,转换为(单词,1) 6.相同单词汇总,前一个下划线表示累加数据,后一个下划线表示新数据 7.收集打印结果数据 8.关闭sparkContext对象
时间: 2024-02-03 15:14:03 浏览: 67
以下是代码示例:
```python
from pyspark import SparkConf, SparkContext
# 创建SparkConf对象,设置appName和Master地址
conf = SparkConf().setAppName("WordCount").setMaster("local")
# 创建SparkContext对象
sc = SparkContext(conf=conf)
# 读取数据文件
lines = sc.textFile("word.txt")
# 切分每一行,获取所有的单词
words = lines.flatMap(lambda line: line.split(" "))
# 每个单词记为1,转换为(单词,1)
wordCounts = words.map(lambda word: (word, 1)).reduceByKey(lambda x, y: x + y)
# 收集打印结果数据
for word, count in wordCounts.collect():
print("{}: {}".format(word, count))
# 关闭sparkContext对象
sc.stop()
```
将上述代码保存为wordcount.py文件,然后在终端中执行以下命令:
```
$ spark-submit wordcount.py
```
即可完成单词计数统计,输出结果类似于:
```
hello: 2
world: 1
spark: 2
```
其中,word.txt数据源文件内容为:
```
hello world
hello spark
spark spark
```
阅读全文