duplicated()的参数
时间: 2023-10-09 20:06:59 浏览: 125
duplicated.zip
duplicated()是pandas库提供的函数,用于判断DataFrame或Series中的元素是否重复。其参数有:
- subset:可选参数,指定需要进行重复判断的列,默认为所有列。可以指定一个或多个列名,以列表形式传递。
- keep:可选参数,表示在判断重复时保留哪个元素。可选值为"first"、"last"和False,默认为"first"。其中,"first"表示保留第一个出现的元素,"last"表示保留最后一个出现的元素,False表示全部删除。
- inplace:可选参数,表示是否对原对象进行修改。默认为False,即返回一个新的对象,不影响原对象。
- ignore_index:可选参数,表示在删除重复元素时是否重新生成索引。默认为False,即保留原来的索引。
示例代码:
```python
import pandas as pd
# 创建示例DataFrame
df = pd.DataFrame({
'A': [1, 2, 3, 4, 5],
'B': ['a', 'b', 'c', 'a', 'b'],
'C': [1.0, 2.0, 3.0, 4.0, 5.0]
})
# 按照列'B'进行重复判断,保留第一个出现的元素,并且不修改原对象
df1 = df.duplicated(subset=['B'], keep='first', inplace=False)
print(df1)
# 按照所有列进行重复判断,删除所有重复元素,并修改原对象
df.drop_duplicates(inplace=True)
print(df)
```
阅读全文