pandas怎么去重
时间: 2024-02-22 07:54:12 浏览: 34
在pandas中,可以使用`drop_duplicates()`函数来去除DataFrameSeries中的重复值。该函数会返回一个新的DataFrame或Series,其中不包含重复值。
下面是使用`drop_duplicates()`函数去重的示例代码:
```python
import pandas as pd
# 创建一个包含重复值的DataFrame
data = {'col1': [1, 2, 2, 3, 4, 4, 5],
'col2': ['a', 'b', 'b', 'c', 'd', 'd', 'e']}
df = pd.DataFrame(data)
# 去除重复值
df_unique = df.drop_duplicates()
print(df_unique)
```
输出结果为:
```
col1 col2
0 1 a
1 2 b
3 3 c
4 4 d
6 5 e
```
在上述示例中,`drop_duplicates()`函数默认会对所有列进行去重操作。如果只想对特定列进行去重,可以使用`subset`参数指定需要去重的列名。
另外,`drop_duplicates()`函数还提供了一些其他参数,例如`keep`参数用于指定保留哪个重复值(默认保留第一个出现的重复值),`inplace`参数用于指定是否在原地修改DataFrame等。
相关问题
pandas 去重
你可以使用 pandas 库中的 drop_duplicates() 方法来去除 DataFrame 或 Series 中的重复数据。该方法默认会判断全部列的值是否完全相同,如果是,则将其视为重复数据并去除。示例代码如下:
```python
import pandas as pd
# 创建一个含有重复数据的 DataFrame
df = pd.DataFrame({'col1': [1, 2, 2, 3], 'col2': ['a', 'b', 'b', 'c']})
print(df)
# 去除重复数据
df = df.drop_duplicates()
print(df)
```
输出结果如下:
```
col1 col2
0 1 a
1 2 b
2 2 b
3 3 c
col1 col2
0 1 a
1 2 b
3 3 c
```
在上面的例子中,我们首先创建了一个含有重复数据的 DataFrame,然后使用 drop_duplicates() 方法去除重复数据,并输出去重后的结果。注意,该方法默认会保留第一次出现的重复数据,如果需要保留最后一次出现的重复数据,可以使用 keep='last' 参数。
python pandas 去重
要使用 Pandas 进行去重,你可以使用 `drop_duplicates()` 方法。这个方法会返回一个去重后的 DataFrame。
下面是一个例子:
```python
import pandas as pd
# 创建一个示例 DataFrame
data = {'col1': [1, 1, 2, 2, 3, 3],
'col2': ['A', 'A', 'B', 'B', 'C', 'C']}
df = pd.DataFrame(data)
# 去重
df_unique = df.drop_duplicates()
# 输出去重后的结果
print(df_unique)
```
这个例子中,我们有两列数据 `col1` 和 `col2`。使用 `drop_duplicates()` 方法后,重复的行被移除,只保留了唯一的行。
希望这个能帮到你!如果有任何其他问题,请随时提问。