pandas删除重复行
时间: 2023-10-13 11:10:13 浏览: 88
要删除 pandas DataFrame 中的重复行,可以使用 `drop_duplicates()` 方法。该方法默认会比较所有列,如果有一行与另一行完全相同,则被视为重复行。
以下是一个示例代码:
``` python
import pandas as pd
# 创建一个包含重复行的 DataFrame
data = {'name': ['Alice', 'Bob', 'Charlie', 'Alice'],
'age': [25, 30, 35, 25],
'gender': ['F', 'M', 'M', 'F']}
df = pd.DataFrame(data)
# 删除重复行
df = df.drop_duplicates()
# 打印结果
print(df)
```
输出结果如下:
```
name age gender
0 Alice 25 F
1 Bob 30 M
2 Charlie 35 M
```
在上面的示例中,我们首先创建一个包含重复行的 DataFrame,然后使用 `drop_duplicates()` 方法删除了这些重复行。最后,打印了结果以验证删除操作是否正确。
相关问题
pandas删除重复行不保留
如果想要使用Pandas删除重复行,但是不保留任何一个重复的行,可以使用drop_duplicates方法,并将keep参数设置为False。下面是一个例子:
``` python
import pandas as pd
df = pd.DataFrame({'A': [1, 1, 2, 3, 3], 'B': ['a', 'b', 'c', 'd', 'd']})
print(df)
# 删除重复行并不保留任何一个重复的行
df.drop_duplicates(keep=False, inplace=True)
print(df)
```
输出结果为:
```
A B
0 1 a
1 1 b
2 2 c
3 3 d
4 3 d
A B
2 2 c
```
可以看到,最后只保留了一个不重复的行(第2行)。
pandas删除重复的行
Pandas是一个强大的数据处理库,在Python中常用它来进行数据分析。如果你想从DataFrame中删除重复的行,可以使用`drop_duplicates()`函数。这个函数会检查指定的列(默认是所有列),并返回一个新的DataFrame,其中包含了唯一的组合。
基本语法如下:
```python
df.drop_duplicates(inplace=True|False)
```
- `inplace=True`表示在原DataFrame上直接修改,删除重复行;如果不设置或设置为`False`,则返回一个新的不含重复行的DataFrame。
- 如果你想基于特定的列去查找重复,可以在`subset`参数中传入列名列表,例如`df.drop_duplicates(subset=['column1', 'column2'])`。
如果你只想保留每组的第一个重复项,可以添加`keep='first'`:
```python
df.drop_duplicates(keep='first', inplace=True)
```
或者保留最后一个重复项,用`keep='last'`:
```python
df.drop_duplicates(keep='last', inplace=True)
```
阅读全文