dataframe中删除重复数据
时间: 2023-05-27 13:05:41 浏览: 99
可以使用`drop_duplicates()`方法来删除重复数据。
例如,假设有以下的dataframe:
```
import pandas as pd
data = {'name': ['Alice', 'Bob', 'Charlie', 'David', 'Emily', 'Alice'],
'age': [25, 30, 35, 40, 45, 25],
'city': ['New York', 'Los Angeles', 'San Francisco', 'Seattle', 'Chicago', 'New York']}
df = pd.DataFrame(data)
print(df)
```
输出:
```
name age city
0 Alice 25 New York
1 Bob 30 Los Angeles
2 Charlie 35 San Francisco
3 David 40 Seattle
4 Emily 45 Chicago
5 Alice 25 New York
```
可以看到,有两行数据是重复的。
要删除重复数据,只需要调用`drop_duplicates()`方法即可:
```
df = df.drop_duplicates()
print(df)
```
输出:
```
name age city
0 Alice 25 New York
1 Bob 30 Los Angeles
2 Charlie 35 San Francisco
3 David 40 Seattle
4 Emily 45 Chicago
```
可以看到,重复的两行数据已经被删除了,只剩下了唯一的行。
阅读全文