python引入pyspark编写wordcount程序
时间: 2023-08-08 14:12:29 浏览: 123
spark下实现wordcount
5星 · 资源好评率100%
以下是使用 PySpark 编写 WordCount 程序的示例代码:
```python
from pyspark import SparkContext
# 初始化 SparkContext
sc = SparkContext("local", "WordCount App")
# 读取输入文件
input_file = sc.textFile("input.txt")
# 对文件进行单词拆分和计数
word_counts = input_file \
.flatMap(lambda line: line.split(" ")) \
.map(lambda word: (word, 1)) \
.reduceByKey(lambda a, b: a + b)
# 将结果输出到文件
word_counts.saveAsTextFile("output")
# 关闭 SparkContext
sc.stop()
```
其中,`SparkContext` 是 Spark 应用程序的入口点,用于初始化 Spark 的运行环境。`textFile` 方法用于读取输入文件,将其转换为 RDD(弹性分布式数据集)。`flatMap` 方法用于对每行文本进行单词拆分,并将结果展平为一个长列表。`map` 方法用于将每个单词映射为一个键值对,其中键为单词本身,值为 1。`reduceByKey` 方法用于对相同键的值进行累加操作。最后,`saveAsTextFile` 方法用于将结果输出到指定路径的文件中。
阅读全文