sparkdataframe 将特殊值替换为null
时间: 2023-11-28 13:49:25 浏览: 212
修改数据库的NULL值
Spark DataFrame 可以使用 `na.replace()` 方法将特殊值替换为 null。该方法接受两个参数:要替换的值和替换值。例如,将所有字符串 "N/A" 替换为 null:
```python
from pyspark.sql.functions import when
df = df.withColumn("column_name", when(df.column_name == "N/A", None).otherwise(df.column_name))
```
或者,将所有 NaN 替换为 null:
```python
df = df.na.replace(float('nan'), None)
```
注意,在 Spark 中,null 和 NaN 是不同的概念,因此需要根据具体情况进行替换。
阅读全文