pandas多列去重并统计重复个数

时间: 2023-06-28 07:07:07 浏览: 388

Pandas统计重复的列里面的值方法

### Pandas统计重复的列里面的值方法在数据分析领域，Pandas 是一款非常重要的 Python 库，它提供了大量用于数据处理、清洗、分析的功能。其中一个常见的需求是统计数据框（DataFrame）中某列的重复值情况。这不仅有助于了解数据的质量，还可以帮助我们在后续的数据分析过程中作出更准确的决策。 #### 一、理解重复值统计的意义在实际的数据分析项目中，数据源往往来自于多个不同的渠道，数据质量参差不齐。因此，在进行深入分析之前，通常需要对数据进行预处理，其中包括识别并处理重复数据。重复值的存在可能会导致分析结果失真，因此正确地统计和处理重复值是非常必要的。 #### 二、使用 Pandas 进行重复值统计根据题目中的代码示例，我们将详细介绍如何使用 Pandas 来统计 DataFrame 中某列的重复值。 #### 1. 创建示例 DataFrame ```python import pandas as pd import numpy as np # 创建示例数据 salaries = pd.DataFrame({ 'name': ['BOSS', 'Lilei', 'Lilei', 'Han', 'BOSS', 'BOSS', 'Han', 'BOSS'], 'Year': [2016, 2016, 2016, 2016, 2017, 2017, 2017, 2017], 'Salary': [1, 2, 3, 4, 5, 6, 7, 8], 'Bonus': [2, 2, 2, 2, 3, 4, 5, 6] }) print(salaries) ``` 输出： ``` name Year Salary Bonus 0 BOSS 2016 1 2 1 Lilei 2016 2 2 2 Lilei 2016 3 2 3 Han 2016 4 2 4 BOSS 2017 5 3 5 BOSS 2017 6 4 6 Han 2017 7 5 7 BOSS 2017 8 6 ``` #### 2. 统计重复值接下来，我们将使用 `duplicated()` 方法来统计 `Bonus` 列中的重复值。 ##### (1) 保留第一个出现的值 ```python print(salaries['Bonus'].duplicated(keep='first')) # 保留第一个出现的值 ``` 输出： ``` 0 False 1 True 2 True 3 True 4 False 5 False 6 False 7 False Name: Bonus, dtype: bool ``` 可以看到，除了第一个出现的值之外，其余重复的值都被标记为了 `True`。 ##### (2) 获取重复值的索引 ```python print(salaries[salaries['Bonus'].duplicated(keep='first')].index) ``` 输出： ``` Int64Index([1, 2, 3], dtype='int64') ``` 这里获取到了所有重复值的索引位置。 ##### (3) 获取重复值所在的行 ```python print(salaries[salaries['Bonus'].duplicated(keep='first')]) ``` 输出： ``` name Year Salary Bonus 1 Lilei 2016 2 2 2 Lilei 2016 3 2 3 Han 2016 4 2 ``` 我们可以看到，这三行数据都具有相同的 `Bonus` 值。 ##### (4) 保留最后一个出现的值 ```python print(salaries['Bonus'].duplicated(keep='last')) # 保留最后一个出现的值 ``` 输出： ``` 0 True 1 True 2 True 3 False 4 False 5 False 6 False 7 False Name: Bonus, dtype: bool ``` 与之前不同的是，这里保留了最后一个出现的值，并将前面重复的值标记为 `True`。 ##### (5) 获取重复值的索引 ```python print(salaries[salaries['Bonus'].duplicated(keep='last')].index) ``` 输出： ``` Int64Index([0, 1, 2], dtype='int64') ``` 这里获取到了所有重复值的索引位置。 ##### (6) 获取重复值所在的行 ```python print(salaries[salaries['Bonus'].duplicated(keep='last')]) ``` 输出： ``` name Year Salary Bonus 0 BOSS 2016 1 2 1 Lilei 2016 2 2 2 Lilei 2016 3 2 ``` 同样地，这三行数据都具有相同的 `Bonus` 值。 #### 三、非 Pandas 方法除了使用 Pandas 进行重复值的统计之外，还可以使用 NumPy 来实现类似的功能。假设有一个 NumPy 数组 `a`，现在想要找到其中重复的元素 `[1, 3]`。 ##### 方法 1 ```python a = np.array([1, 2, 1, 3, 3, 3, 0]) m = np.zeros_like(a, dtype=bool) m[np.unique(a, return_index=True)[1]] = True print(a[~m]) ``` 输出： ``` array([2, 3, 3, 3, 0]) ``` 这里输出的是所有非重复的元素。 ##### 方法 2 ```python print(a[~np.in1d(np.arange(len(a)), np.unique(a, return_index=True)[1], assume_unique=True)]) ``` 输出： ``` array([2, 3, 3, 3, 0]) ``` 与方法 1 的结果相同。 ##### 方法 3 ```python print(np.setxor1d(a, np.unique(a), assume_unique=True)) ``` 输出： ``` array([], dtype=int64) ``` 这种方法并没有直接返回重复的元素，而是返回了两个集合的异或结果。 ##### 方法 4 ```python u, i = np.unique(a, return_inverse=True) print(u[np.bincount(i) > 1]) ``` 输出： ``` array([1, 3]) ``` 这里直接得到了重复的元素 `[1, 3]`。 ##### 方法 5 ```python s = np.sort(a, axis=None) print(s[:-1][s[1:] == s[:-1]]) ``` 输出： ``` array([1, 3]) ``` 该方法通过排序后比较相邻元素是否相等来找出重复值。 #### 四、总结本文详细介绍了如何使用 Pandas 和 NumPy 来统计数据框中某列的重复值。这些方法可以帮助我们更好地理解数据，并在后续的数据清洗和分析过程中做出更合理的决策。在实际应用中，选择哪种方法取决于具体的需求以及数据的特点。

可以使用 pandas 的 groupby 函数和 nunique 函数来实现多列去重并统计重复个数。假设我们有一个数据集 df，其中包含三列 A、B、C： ``` import pandas as pd df = pd.DataFrame({ 'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'], 'B': ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'], 'C': [1, 2, 1, 1, 2, 1, 2, 1] }) ``` 我们想要根据列 A 和 B 去重，并统计重复的个数。可以使用以下代码： ``` df.groupby(['A', 'B']).nunique() ``` 输出结果如下： ``` A B C A B bar one 1 1 1 three 1 1 1 two 1 1 1 foo one 1 1 2 three 1 1 1 two 1 1 1 ``` 其中，第一列和第二列是去重后的列 A 和 B，第三列是重复的个数（即列 C 的不同值的个数）。

阅读全文

pandas多列去重并统计重复个数

相关推荐

pandas数据框,统计某列数据对应的个数方法

pandas去除重复列的实现方法

Pandas中的数据去重与重复值处理

谭松波情感分析酒店评论去重语料，格式已整理，pandas直接读

Pandas之drop_duplicates:去除重复项方法

pandas使用工作技能总结

使用VLOOKUP函数进行数据去重与去重复

Pandas数据分析与统计基础

数据预处理中的数据去重：识别与处理重复记录的实用技巧

Pandas数据清洗技巧：处理缺失值和重复项

数据合并技巧：利用Pandas读取多个CSV文件

【Pandas速成课】：新手必备的20个Pandas核心技巧

Pandas数据预处理

【Python集合去重手册】：轻松实现数据自动去重

【Pandas绝密技巧】：5个你不知道的数据处理杀手锏

Pandas 数据结构详解与应用

Python爬虫数据清洗与去重方法

pandas 数据库操作有哪些

最新推荐

Python 合并多个TXT文件并统计词频的实现

Python pandas 列转行操作详解(类似hive中explode方法)

pandas对指定列进行填充的方法

基于Python数据分析之pandas统计分析

python pandas读取csv后,获取列标签的方法

JHU荣誉单变量微积分课程教案介绍

管理建模和仿真的文件

【实战篇：自定义损失函数】：构建独特损失函数解决特定问题，优化模型性能

如何在ZYNQMP平台上配置TUSB1210 USB接口芯片以实现Host模式，并确保与Linux内核的兼容性？

Naruto爱好者必备CLI测试应用