pandas多列去重并统计重复个数
时间: 2023-06-28 07:07:07 浏览: 388
Pandas统计重复的列里面的值方法
可以使用 pandas 的 groupby 函数和 nunique 函数来实现多列去重并统计重复个数。
假设我们有一个数据集 df,其中包含三列 A、B、C:
```
import pandas as pd
df = pd.DataFrame({
'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
'B': ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'],
'C': [1, 2, 1, 1, 2, 1, 2, 1]
})
```
我们想要根据列 A 和 B 去重,并统计重复的个数。可以使用以下代码:
```
df.groupby(['A', 'B']).nunique()
```
输出结果如下:
```
A B C
A B
bar one 1 1 1
three 1 1 1
two 1 1 1
foo one 1 1 2
three 1 1 1
two 1 1 1
```
其中,第一列和第二列是去重后的列 A 和 B,第三列是重复的个数(即列 C 的不同值的个数)。
阅读全文