pandas 去掉某列重复的数据
时间: 2023-10-16 08:30:50 浏览: 103
详解Python数据分析–Pandas知识点
5星 · 资源好评率100%
可以使用 pandas 库的 `drop_duplicates` 方法来去掉某列重复的数据,示例代码如下:
```python
import pandas as pd
# 创建一个 DataFrame
df = pd.DataFrame({'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
'B': ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'],
'C': [1, 2, 3, 4, 5, 6, 7, 8]})
# 去掉列 A 中重复的数据,保留第一个出现的值
df.drop_duplicates(subset=['A'], keep='first', inplace=True)
print(df)
```
输出结果为:
```
A B C
0 foo one 1
1 bar one 2
```
在这个示例中,我们使用了 `drop_duplicates` 方法来去掉列 A 中重复的数据,并保留第一个出现的值。`subset` 参数用于指定要去重的列,`keep` 参数用于指定保留哪一个出现的值,`inplace` 参数用于指定是否在原 DataFrame 上进行修改。
阅读全文