如何删除数据框里的重复数据
时间: 2023-02-08 16:28:22 浏览: 124
Pandas 数据框提供了 drop_duplicates() 函数可以用来删除重复的行。
语法为:
```
DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)
```
参数说明:
- subset:可选参数,表示根据哪些列来判断重复。
- keep:可选参数,默认值为 'first'。'first' 表示保留第一个出现的重复行,'last' 表示保留最后一个出现的重复行,False 表示全部删除。
- inplace:可选参数,默认值为 False。若为 True,则在原数据框上进行修改;若为 False,则返回一个新的数据框。
例:
```
import pandas as pd
df = pd.DataFrame({'A':[1, 2, 3, 2], 'B':[4, 5, 6, 5], 'C':[7, 8, 9, 8]})
df = df.drop_duplicates()
print(df)
```
输出结果:
```
A B C
0 1 4 7
1 2 5 8
2 3 6 9
```
这段代码中,我们创建了一个数据框,里面有重复的值, 然后通过drop_duplicates() 删除重复的行,保留第一个出现的。
请注意,如果需要根据某几列来删除重复行,可以传入参数 subset = [list of columns]
阅读全文