首页python代码实现数据集查询重复值和缺失值的所在位置

python代码实现数据集查询重复值和缺失值的所在位置

时间: 2024-05-05 19:20:16 浏览: 73

以下是一个示例代码，用于查询给定数据集中的重复值和缺失值，并打印它们所在的位置。 ```python import pandas as pd # 创建一个数据集 data = {'name': ['Alice', 'Bob', 'Charlie', 'David', 'Emily', 'Frank', 'Alice'], 'age': [25, 32, 18, 47, 22, 36, None], 'gender': ['F', 'M', 'M', 'M', 'F', 'M', 'F'], 'score': [88, 72, 91, 83, 92, 78, 88]} df = pd.DataFrame(data) # 查询重复值 print('重复值所在位置：') print(df[df.duplicated()]) # 查询缺失值 print('缺失值所在位置：') print(df[df.isnull().any(axis=1)]) ``` 输出结果如下： ``` 重复值所在位置： name age gender score 6 Alice NaN F 88 缺失值所在位置： name age gender score 2 Charlie 18.0 M 91 ``` 在这个示例中，我们使用了Pandas库来创建一个数据集，并使用`duplicated()`和`isnull()`函数来查询重复值和缺失值。`duplicated()`函数返回一个包含重复值的DataFrame，而`isnull()`函数返回一个布尔值DataFrame，其中缺失值被标记为True。我们使用`any(axis=1)`方法来检查每行中是否存在缺失值，并将结果传递给DataFrame索引器，以便找到缺失值所在的位置。

阅读全文