pyspark按均值和分组填充某一列缺失值代码
时间: 2023-03-31 10:01:43 浏览: 259
均值滤波与中值滤波的应用_MATLAB中值滤波_均值滤波中值滤波的matlab代码_中值滤波_plandop_
5星 · 资源好评率100%
可以使用 pyspark 中的 fillna 函数来填充缺失值,具体代码如下:
```python
from pyspark.sql.functions import mean, col
# 假设要填充的列名为 col_name,数据集为 df
# 先计算均值
mean_value = df.select(mean(col(col_name))).collect()[][]
# 然后按照分组进行填充
df = df.fillna(mean_value, subset=[col_name, "group_col"])
```
其中,group_col 为用来分组的列名,可以根据实际情况进行修改。
阅读全文