python代码实现数据集查询重复值和缺失值的所在位置
时间: 2024-05-05 19:20:16 浏览: 73
以下是一个示例代码,用于查询给定数据集中的重复值和缺失值,并打印它们所在的位置。
```python
import pandas as pd
# 创建一个数据集
data = {'name': ['Alice', 'Bob', 'Charlie', 'David', 'Emily', 'Frank', 'Alice'],
'age': [25, 32, 18, 47, 22, 36, None],
'gender': ['F', 'M', 'M', 'M', 'F', 'M', 'F'],
'score': [88, 72, 91, 83, 92, 78, 88]}
df = pd.DataFrame(data)
# 查询重复值
print('重复值所在位置:')
print(df[df.duplicated()])
# 查询缺失值
print('缺失值所在位置:')
print(df[df.isnull().any(axis=1)])
```
输出结果如下:
```
重复值所在位置:
name age gender score
6 Alice NaN F 88
缺失值所在位置:
name age gender score
2 Charlie 18.0 M 91
```
在这个示例中,我们使用了Pandas库来创建一个数据集,并使用`duplicated()`和`isnull()`函数来查询重复值和缺失值。`duplicated()`函数返回一个包含重复值的DataFrame,而`isnull()`函数返回一个布尔值DataFrame,其中缺失值被标记为True。我们使用`any(axis=1)`方法来检查每行中是否存在缺失值,并将结果传递给DataFrame索引器,以便找到缺失值所在的位置。
阅读全文