给我drop_duplicates函数的用法
时间: 2023-10-09 07:13:10 浏览: 41
pandas库中的drop_duplicates函数用于去除DataFrame中的重复行。具体用法如下:
1. drop_duplicates(subset=None, keep='first', inplace=False)
参数说明:
- subset:指定要考虑的列,如果不指定,则会考虑所有列。
- keep:指定保留哪个重复的值。可选值包括:'first'(保留第一个出现的重复值)、'last'(保留最后一个出现的重复值)、False(删除所有重复值)。
- inplace:是否在原DataFrame中进行修改,默认为False,即不修改原DataFrame。
2. 示例:
```python
import pandas as pd
# 创建DataFrame
data = {'name': ['Tom', 'Jerry', 'Tom', 'Lucy'], 'age': [18, 20, 18, 19], 'gender': ['M', 'M', 'M', 'F']}
df = pd.DataFrame(data)
# 打印原DataFrame
print(df)
# 去除重复行
df.drop_duplicates(inplace=True)
# 打印去除重复行后的DataFrame
print(df)
```
输出结果为:
```
name age gender
0 Tom 18 M
1 Jerry 20 M
2 Tom 18 M
3 Lucy 19 F
name age gender
0 Tom 18 M
1 Jerry 20 M
3 Lucy 19 F
```
可以看到,原DataFrame中有重复行,经过drop_duplicates函数去重后,得到了新的DataFrame。