python dataframe去重
时间: 2023-04-26 14:05:37 浏览: 261
Python代码源码-实操案例-框架案例-重复数据处理(df.drop duplicates方法).zip
可以使用 pandas 库中的 drop_duplicates() 方法进行去重。该方法会返回一个新的数据帧,其中包含原始数据帧中去重后的数据。
drop_duplicates() 方法可以接受多个参数来指定在哪些列上进行去重,以及如何处理重复值。其中最常用的参数是 subset 和 keep。
- subset:指定需要去重的列名,可以是一个字符串或一个列表。
- keep:指定保留哪个重复值,可以是 'first'(保留第一个出现的值)、'last'(保留最后一个出现的值)或 False(全部删除)。
以下是一个示例:
```python
import pandas as pd
# 创建一个包含重复值的数据帧
df = pd.DataFrame({'key1': ['A', 'B', 'A', 'C', 'B'],
'key2': ['X', 'Y', 'Y', 'Z', 'X'],
'value': [1, 2, 3, 4, 5]})
# 对 key1 和 key2 列进行去重,并保留第一个出现的值
df2 = df.drop_duplicates(subset=['key1', 'key2'], keep='first')
print(df2)
```
输出结果如下:
```
key1 key2 value
0 A X 1
1 B Y 2
3 C Z 4
4 B X 5
```
可以看到,重复的行已经被删除了,保留了第一个出现的值。
阅读全文