首页一、sparkCore完成单词计数统计（读取word.txt数据源）（30分） 1.创建SparkConf对象,设置appName和Master地址 2.创建SparkContext对象，它是所有任务计算的源头，它会创建DAGScheduler和TaskScheduler 3.读取数据文件,RDD可以简单的理解为是一个集合，集合中存放的元素是String类型 4.切分每一行，获取所有的单词 5.每个单词记为1，转换为（单词，1） 6.相同单词汇总，前一个下划线表示累加数据，后一个下划线表示新数据 7.收集打印结果数据 8.关闭sparkContext对象

一、sparkCore完成单词计数统计（读取word.txt数据源）（30分） 1.创建SparkConf对象,设置appName和Master地址 2.创建SparkContext对象，它是所有任务计算的源头，它会创建DAGScheduler和TaskScheduler 3.读取数据文件,RDD可以简单的理解为是一个集合，集合中存放的元素是String类型 4.切分每一行，获取所有的单词 5.每个单词记为1，转换为（单词，1） 6.相同单词汇总，前一个下划线表示累加数据，后一个下划线表示新数据 7.收集打印结果数据 8.关闭sparkContext对象

时间: 2024-02-03 15:14:03 浏览: 67

以下是代码示例： ```python from pyspark import SparkConf, SparkContext # 创建SparkConf对象,设置appName和Master地址 conf = SparkConf().setAppName("WordCount").setMaster("local") # 创建SparkContext对象 sc = SparkContext(conf=conf) # 读取数据文件 lines = sc.textFile("word.txt") # 切分每一行，获取所有的单词 words = lines.flatMap(lambda line: line.split(" ")) # 每个单词记为1，转换为（单词，1） wordCounts = words.map(lambda word: (word, 1)).reduceByKey(lambda x, y: x + y) # 收集打印结果数据 for word, count in wordCounts.collect(): print("{}: {}".format(word, count)) # 关闭sparkContext对象 sc.stop() ``` 将上述代码保存为wordcount.py文件，然后在终端中执行以下命令： ``` $ spark-submit wordcount.py ``` 即可完成单词计数统计，输出结果类似于： ``` hello: 2 world: 1 spark: 2 ``` 其中，word.txt数据源文件内容为： ``` hello world hello spark spark spark ```

阅读全文