pyspark求平均值
时间: 2023-11-23 15:08:24 浏览: 108
使用IDEA编写SparkSql自定义聚合函数——强类型Dataset(求平均值)
可以使用PySpark中的DataFrame的summary()函数来求平均值。下面是一个示例代码:
```python
# 导入PySpark模块
from pyspark.sql import SparkSession
# 创建SparkSession对象
spark = SparkSession.builder.appName("求平均值").getOrCreate()
# 读取数据
data = spark.read.csv("data.csv", header=True, inferSchema=True)
# 使用summary()函数求平均值
mean_data = data.select('col1', 'col2', 'col3').summary('mean')
# 显示结果
mean_data.show()
```
上述代码中,我们首先创建了一个SparkSession对象,然后使用read.csv()函数读取数据。接着,我们使用select()函数选择需要求平均值的列,并使用summary()函数求平均值。最后,我们使用show()函数显示结果。
阅读全文