一、sparkCore完成单词计数统计(读取word.txt数据源) (30分) 1.创建SparkConf对象,设置appName和Master地址 2.创建SparkContext对象,它是所有任务计算的源头,它会创建DAGScheduler和TaskScheduler 3.读取数据文件,RDD可以简单的理解为是一个集合,集合中存放的元素是String类型 4.切分每一行,获取所有的单词 5.每个单词记为1,转换为(单词,1) 6.相同单词汇总,前一个下划线表示累加数据,后一个下划线表示新数据 7.收集打印结果数据 8.关闭sparkContext对象
时间: 2024-02-03 09:14:34 浏览: 28
以下是使用Python代码实现的Spark单词计数统计:
```python
from pyspark import SparkConf, SparkContext
# 创建SparkConf对象,设置appName和Master地址
conf = SparkConf().setAppName("WordCount").setMaster("local")
# 创建SparkContext对象
sc = SparkContext(conf=conf)
# 读取数据文件
lines = sc.textFile("word.txt")
# 切分每一行,获取所有的单词
words = lines.flatMap(lambda line: line.split(" "))
# 每个单词记为1,转换为(单词,1)
wordCounts = words.map(lambda word: (word, 1)).reduceByKey(lambda x, y: x + y)
# 收集打印结果数据
result = wordCounts.collect()
for (word, count) in result:
print("{}: {}".format(word, count))
# 关闭SparkContext对象
sc.stop()
```
其中,`textFile`函数读取数据文件,`flatMap`函数切分每一行并获取所有的单词,`map`函数将每个单词记为1并转换为(单词,1),`reduceByKey`函数相同单词汇总并累加出现次数。最后,`collect`函数收集打印结果数据。需要注意的是,`stop`函数关闭SparkContext对象。