统计每一列缺失值的数量和占比情况
时间: 2024-10-18 09:21:30 浏览: 30
在Python中,你可以使用pandas库来处理这个任务。pandas提供了一个方便的方法`isnull()`用于检测缺失值,然后结合`sum()`和`mean()`函数来计算每列缺失值的数量(即非空值数量)和占比。以下是一个简单的例子:
```python
import pandas as pd
# 假设你有一个名为df的DataFrame
data = {
'A': [1, 2, np.nan, 4],
'B': [5, np.nan, np.nan, 8],
'C': [9, 10, 11, np.nan]
}
df = pd.DataFrame(data)
# 计算缺失值的数量
missing_values_count = df.isnull().sum()
# 计算每列缺失值的占比
missing_values_percentage = (df.isnull().sum() / df.shape[0]) * 100 # df.shape[0]返回行数
print("Missing values count:")
print(missing_values_count)
print("\nMissing values percentage:")
print(missing_values_percentage)
```
在这个例子中,`np.nan`代表缺失值。`isnull()`函数会创建一个新的布尔型数据框,其中True表示对应位置有缺失值,False表示没有。`sum()`对每一列求和,得到的就是该列的缺失值数量。`shape[0]`获取的是总行数,用来计算每列的缺失值占比。
阅读全文