判断数据集中各个字段有无缺失值
时间: 2023-09-08 16:08:53 浏览: 145
SparkSQL扩展-数据操作-缺失值处理
要判断一个数据集中各个字段是否存在缺失值,可以使用 pandas 库中的 `isnull()` 函数和 `sum()` 函数。
假设你的数据集的名字为 `data.csv`,以下是一段代码示例:
```python
import pandas as pd
# 读取数据集
df = pd.read_csv('data.csv')
# 判断各个字段是否存在缺失值
missing_values = df.isnull().sum()
# 输出缺失值情况
for column, count in missing_values.items():
if count > 0:
print(f'{column} 列存在 {count} 个缺失值')
else:
print(f'{column} 列不存在缺失值')
```
在代码示例中,使用 `read_csv()` 函数读取数据集,并将读取到的数据保存到名为 `df` 的 pandas 数据框中。
然后,使用 `isnull()` 函数判断各个字段是否存在缺失值,返回一个布尔型的 pandas DataFrame,其中值为 True 表示该位置为缺失值,值为 False 表示该位置无缺失值。
接着,使用 `sum()` 函数对每个字段的缺失值进行求和,返回一个 pandas Series,其中包含各个字段的缺失值总数。
最后,使用 `for` 循环输出各个字段的缺失值情况。如果某个字段存在缺失值,则输出该字段名称和缺失值数量;如果不存在缺失值,则输出该字段名称和 "不存在缺失值"。
阅读全文