pandas duplicate
时间: 2024-03-12 07:40:35 浏览: 51
在pandas中,可以使用duplicated()函数来找出和删除重复的数据。duplicated()函数可以应用于DataFrame、Series和Index对象。
1. 对于DataFrame对象,可以使用pandas.DataFrame.duplicated()函数来找出重复的行。该函数返回一个布尔值的Series,表示每一行是否是重复的。默认情况下,该函数会将第一个出现的值视为非重复值,后续出现的相同值视为重复值。可以通过传递参数keep='first'来保留第一个出现的值,或者传递参数keep='last'来保留最后一个出现的值。
2. 对于Series对象,可以使用pandas.Series.duplicated()函数来找出重复的元素。该函数返回一个布尔值的Series,表示每个元素是否是重复的。同样地,可以通过传递参数keep='first'或keep='last'来保留第一个或最后一个出现的值。
3. 对于Index对象,可以使用pandas.Index.duplicated()函数来找出重复的索引。该函数返回一个布尔值的numpy.ndarray,表示每个索引是否是重复的。
以下是一个示例,演示了如何使用duplicated()函数来找出重复的数据:
```python
import pandas as pd
# 创建一个DataFrame对象
data = {'Name': ['John', 'Alice', 'Bob', 'John'],
'Age': [25, 28, 30, 25],
'City': ['New York', 'Paris', 'London', 'New York']}
df = pd.DataFrame(data)
# 找出重复的行
duplicated_rows = df.duplicated()
print(duplicated_rows)
# 删除重复的行
df.drop_duplicates(inplace=True)
print(df)
```