pyspark查询缺失值
时间: 2023-07-28 18:10:40 浏览: 249
python数据缺失值可视化
3星 · 编辑精心推荐
在 PySpark 中,我们可以使用 DataFrame API 中的 `isNull()` 和 `isNotNull()` 方法来查询缺失值。
例如,假设我们有一个 DataFrame `df`,其中包含一列名为 `age`:
```
+----+
| age|
+----+
| 25|
| 30|
| 28|
| 35|
|null|
+----+
```
我们可以使用以下代码查询缺失值:
```python
from pyspark.sql.functions import col
# 查询 age 列中的缺失值
null_df = df.filter(col('age').isNull())
# 查询 age 列中的非缺失值
not_null_df = df.filter(col('age').isNotNull())
```
执行上述代码后,`null_df` 将包含缺失值记录,`not_null_df` 将包含非缺失值记录。
希望对你有所帮助!
阅读全文