pyspark语言的分数统计
时间: 2024-01-25 17:19:10 浏览: 27
可以使用PySpark来实现分数统计。以下是一个简单的示例代码:
```python
# 导入PySpark库
from pyspark.sql import SparkSession
# 创建SparkSession
spark = SparkSession.builder.appName("score_statistics").getOrCreate()
# 读取分数数据
scores = spark.read.csv("path/to/scores.csv", header=True, inferSchema=True)
# 统计平均分
avg_score = scores.agg({"score":"avg"}).collect()[0][0]
print("平均分: ", avg_score)
# 统计最高分和最低分
max_score = scores.agg({"score":"max"}).collect()[0][0]
min_score = scores.agg({"score":"min"}).collect()[0][0]
print("最高分: ", max_score)
print("最低分: ", min_score)
# 统计及格率
pass_rate = scores.filter(scores.score >= 60).count() / scores.count()
print("及格率: ", pass_rate)
```
其中,假设分数数据存储在CSV文件中,第一行为列名,包括"score"列。代码中使用SparkSession读取数据,然后使用agg函数统计平均分、最高分和最低分,使用filter函数过滤出及格的分数,计算及格率。