python写spark
时间: 2023-06-28 21:07:25 浏览: 75
下面是一个简单的Python Spark代码示例,它读取一个文本文件并计算每个单词的出现次数:
```python
from pyspark import SparkContext
# 创建SparkContext对象
sc = SparkContext("local", "Word Count")
# 读取文本文件
text_file = sc.textFile("file:///path/to/file.txt")
# 将每一行拆分成单词
words = text_file.flatMap(lambda line: line.split(" "))
# 计算每个单词的出现次数
word_counts = words.map(lambda word: (word, 1)).reduceByKey(lambda a, b: a + b)
# 输出结果
for (word, count) in word_counts.collect():
print("{}: {}".format(word, count))
# 关闭SparkContext对象
sc.stop()
```
在这个示例中,我们首先创建了一个SparkContext对象,并指定它运行在本地模式上。接着,我们使用`textFile()`方法读取一个文本文件,并使用`flatMap()`方法将每一行拆分成单词。然后,我们使用`map()`方法将每个单词映射为一个键值对`(word, 1)`,然后使用`reduceByKey()`方法对相同键的值进行累加。最后,我们使用`collect()`方法将结果收集到驱动程序中,并使用简单的循环输出结果。最后,我们关闭了SparkContext对象。
阅读全文