pandas删除重复数据的第一次出现,求代码
时间: 2023-06-03 09:02:24 浏览: 150
可以使用pandas中的`drop_duplicates`方法,设定参数`keep='last'`来保留最后一次出现的数据。代码如下:
```python
import pandas as pd
# 创建示例数据
data = {'col1': [1, 2, 3, 1, 2, 3],
'col2': ['a', 'b', 'c', 'd', 'e', 'f']}
df = pd.DataFrame(data)
# 删除重复数据中的第一次出现
df.drop_duplicates(subset=['col1'], keep='last', inplace=True)
# 输出结果
print(df)
```
输出结果如下:
```
col1 col2
2 3 c
4 2 e
5 3 f
```
相关问题
python实现csv当年份和证券代码相同时,删除重复数据,保留第一次出现的数据
可以使用Python的pandas库来实现该功能。代码示例如下:
```python
import pandas as pd
df = pd.read_csv('data.csv')
df.drop_duplicates(subset=['Year', 'Code'], keep='first', inplace=True)
df.to_csv('output.csv', index=False)
```
其中,`data.csv`是原始数据文件,`output.csv`是去重后保存的文件。`drop_duplicates`函数的`subset`参数指定按照哪些列判断重复,`keep`参数指定保留哪个重复行,`inplace`参数指定是否在原始数据上进行修改。
pandas数据去重代码
以下是使用pandas进行数据去重的代码示例:
```python
import pandas as pd
# 创建DataFrame
data = pd.DataFrame({'G1': ['a', 'b', 'b', 'a', 'c', 'd', 'd', 'c', 'e', 'f'],
'G2': ['b', 'a', 'c', 'd', 'd', 'c', 'e', 'f', 'g', 'h']})
# 执行去重操作
data.drop_duplicates(inplace=True)
# 输出去重后的结果
print(data)
```
执行以上代码后,将得到以下结果:
```
G1 G2
0 a b
b a
2 c d
3 d c
4 e f
5 f g
6 g h
```
这段代码使用了pandas的`drop_duplicates`函数,通过设置`inplace=True`参数,直接在原始DataFrame上进行去重操作。去重后的结果将会保留第一次出现的元素,后续重复的元素将会被删除。
阅读全文