pandas统计缺失数据和重复数据
时间: 2023-11-04 16:07:35 浏览: 79
pandas取出重复数据的方法
在pandas中,可以使用以下方法统计缺失数据和重复数据:
1. 统计缺失数据:使用isnull()方法返回一个布尔型DataFrame,其中缺失值为True,非缺失值为False。然后使用sum()方法将每列中的缺失值数量相加即可。
示例代码:
```python
import pandas as pd
# 创建一个包含缺失值的DataFrame
df = pd.DataFrame({'A': [1, 2, None, 4], 'B': [5, None, None, 8]})
# 统计每列中的缺失值数量
print(df.isnull().sum())
```
输出结果:
```
A 1
B 2
dtype: int64
```
2. 统计重复数据:使用duplicated()方法返回一个布尔型Series,其中重复的行为True,非重复的行为False。然后使用sum()方法将所有重复行的数量相加即可。
示例代码:
```python
import pandas as pd
# 创建一个包含重复行的DataFrame
df = pd.DataFrame({'A': [1, 2, 3, 4, 2], 'B': [5, 6, 7, 8, 6]})
# 统计重复行的数量
print(df.duplicated().sum())
```
输出结果:
```
1
```
阅读全文