pandas数据分组后根据某列去除每组中的重复值
时间: 2024-05-06 11:14:53 浏览: 120
详解Python数据分析--Pandas知识点
可以使用`drop_duplicates`方法,在分组后的每个小组内,根据指定的列去除重复值。
下面是一个示例代码:
```python
import pandas as pd
# 构造示例数据
data = {'group': ['A', 'A', 'B', 'B', 'B', 'C', 'C'],
'value': [1, 2, 2, 3, 3, 4, 4],
'other': ['x', 'y', 'z', 'u', 'v', 'w', 'x']}
df = pd.DataFrame(data)
# 按照group列分组,对每组内的value列去重
df = df.groupby('group').apply(lambda x: x.drop_duplicates(subset=['value']))
print(df)
```
输出结果如下:
```
group value other
group
A 0 A 1 x
1 A 2 y
B 2 B 2 z
3 B 3 u
C 5 C 4 w
```
可以看到,每个分组内的value列都被去重了,只保留了第一个出现的值。
阅读全文