Python中的drop_puplicates函数
时间: 2024-06-13 16:07:53 浏览: 12
pandas中的drop_duplicates函数用于去除DataFrame中的重复行。具体用法如下:
```python
DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)
```
其中,subset参数用于指定去重时考虑的列,默认为所有列;keep参数用于指定保留哪个重复行,默认为保留第一个;inplace参数用于指定是否在原DataFrame上进行修改,默认为不修改。
下面是一个示例,假设有如下DataFrame:
```python
import pandas as pd
df = pd.DataFrame({'A': [1, 1, 2, 2], 'B': [1, 2, 1, 2], 'C': [1, 2, 3, 4]})
print(df)
```
输出:
```
A B C
0 1 1 1
1 1 2 2
2 2 1 3
3 2 2 4
```
使用drop_duplicates函数去除重复行:
```python
df.drop_duplicates(inplace=True)
print(df)
```
输出:
```
A B C
0 1 1 1
1 1 2 2
2 2 1 3
3 2 2 4
```
可以看到,第二行和第四行是重复的,使用drop_duplicates函数去除了其中一个。
相关问题
python的drop_duplicates函数
Python中的drop_duplicates函数是用来去除DataFrame或Series中的重复行或列的函数。该函数可以根据指定的列名或索引来判断是否为重复行或列,并且可以选择保留第一个或最后一个重复项。该函数的语法如下:
DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)
其中,subset参数用来指定要判断重复的列名或索引,如果不指定,则默认判断所有列;keep参数用来指定保留第一个或最后一个重复项,取值为'first'或'last';inplace参数用来指定是否在原DataFrame上进行修改,取值为True或False。
pandas中drop_duplicates函数
pandas中的drop_duplicates函数用于删除DataFrame或Series中的重复行。它返回一个新的DataFrame或Series,其中仅包含不重复的行。
在DataFrame上使用drop_duplicates函数时,可以指定一个或多个列作为参考列。如果指定了参考列,则只有在指定的列上的值都相同时,才会被视为重复行。
下面是drop_duplicates函数的基本语法:
```python
DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)
```
其中,参数说明如下:
- subset:可选参数,用于指定要考虑的列。默认值为None,表示考虑所有列。
- keep:可选参数,用于指定保留哪个重复行。可选值为'first'(保留第一个出现的重复行),'last'(保留最后一个出现的重复行),False(删除所有重复行)。默认值为'first'。
- inplace:可选参数,用于指定是否在原地修改数据。如果设置为True,则会直接修改原始DataFrame或Series,而不是返回一个新的对象。默认值为False。
下面是一个示例:
```python
import pandas as pd
# 创建一个DataFrame
data = {'A': [1, 2, 2, 3, 4],
'B': ['a', 'b', 'b', 'c', 'd']}
df = pd.DataFrame(data)
# 删除重复行
df.drop_duplicates(inplace=True)
print(df)
```
输出结果如下:
```
A B
0 1 a
1 2 b
3 3 c
4 4 d
```
在这个示例中,原始的DataFrame有两个重复行(索引为2和4),通过使用drop_duplicates函数,我们删除了这两个重复行,并得到一个新的DataFrame。