如何pandas去重
时间: 2023-10-28 09:02:19 浏览: 91
python pandas dataframe 去重函数的具体使用
要在pandas中进行去重操作,你可以使用DataFrame的`drop_duplicates()`方法。这个方法可以删除DataFrame中的重复行。你可以传递一个或多个列名作为参数来指定根据哪些列进行去重。下面是一个示例:
```python
import pandas as pd
# 创建一个DataFrame
data = {'city': ['北京', '上海', '广州', '深圳', '北京', '上海'],
'2018': [33105,36011, 22859, 24221, 33105, 36011]}
df = pd.DataFrame(data)
# 使用drop_duplicates()方法去重
new_df = df.drop_duplicates()
# 打印去重后的DataFrame
print(new_df)
```
这将输出以下结果:
```
city 2018
0 北京 33105
1 上海 36011
2 广州 22859
3 深圳 24221
```
在这个例子中,原始DataFrame中的重复行被删除,得到了一个去重后的新DataFrame。
如果你想根据特定的列进行去重,可以在`drop_duplicates()`方法中传递一个列名的列表作为参数,指定根据哪些列进行去重。例如,如果你只想根据'city'列进行去重,可以这样做:
```python
new_df = df.drop_duplicates(['city'])
```
如果你想保留重复行中的最后一行,可以使用`keep='last'`参数,在`drop_duplicates()`方法中传递它。例如,要根据'city'和'2018'列进行去重,并保留重复行中的最后一行,可以这样做:
```python
new_df = df.drop_duplicates(['city', '2018'], keep='last')
```
这将返回以下结果:
```
city 2018
2 广州 22859
3 深圳 24221
4 北京 33105
5 上海 36011
```
这样,你可以根据需要使用`drop_duplicates()`方法对DataFrame进行去重操作。
阅读全文