Python代码写一个pyspark项目和数据
时间: 2024-04-29 19:22:29 浏览: 10
这里提供一个简单的 pyspark 项目和数据示例,供参考。
项目名称:Word Count
项目描述:从文本文件中读取数据,统计每个单词的出现次数,并输出结果。
代码实现:
```python
from pyspark.sql import SparkSession
from pyspark.sql.functions import split, explode, count
# 创建 SparkSession
spark = SparkSession.builder.appName("WordCount").getOrCreate()
# 读取数据
data = spark.read.text("data.txt")
# 分割文本行
words = data.select(explode(split(data.value, " ")).alias("word"))
# 统计单词出现次数
word_counts = words.groupBy("word").agg(count("*").alias("count"))
# 输出结果
word_counts.show()
# 停止 SparkSession
spark.stop()
```
数据示例:
data.txt
```
Hello world
Hello pyspark
Goodbye world
```
运行结果:
```
+-------+-----+
| word|count|
+-------+-----+
| pyspark| 1|
| Hello| 2|
| Goodbye| 1|
| world| 2|
+-------+-----+
```