pandas 查找duplicate
时间: 2023-06-10 08:08:20 浏览: 49
要查找 Pandas DataFrame 中的重复行,可以使用 `duplicated()` 方法。该方法返回一个布尔值 Series,指示每行是否为重复行。如果两行的所有值都相同,则这两行被认为是重复的。
举个例子,假设我们有以下 DataFrame:
```
import pandas as pd
data = {'Name': ['John', 'Paul', 'George', 'Ringo', 'John', 'George'],
'Age': [22, 24, 25, 22, 22, 25],
'City': ['London', 'New York', 'Los Angeles', 'London', 'Paris', 'Los Angeles']}
df = pd.DataFrame(data)
print(df)
```
输出:
```
Name Age City
0 John 22 London
1 Paul 24 New York
2 George 25 Los Angeles
3 Ringo 22 London
4 John 22 Paris
5 George 25 Los Angeles
```
要查找重复的行,可以使用以下代码:
```
duplicate_rows = df.duplicated()
print(duplicate_rows)
```
输出:
```
0 False
1 False
2 False
3 False
4 False
5 True
dtype: bool
```
在这个例子中,第 5 行被标记为重复行。如果要查找所有重复的行,可以使用以下代码:
```
duplicate_rows = df[df.duplicated()]
print(duplicate_rows)
```
输出:
```
Name Age City
5 George 25 Los Angeles
```