pandas合并数据第三关
时间: 2023-07-12 10:46:56 浏览: 100
天池 pandas实践_第三章 索引 数据
抱歉,刚才回答的是第二关的任务。第三关的任务是合并两个数据框并去除重复行。具体操作如下:
1. 读取两个数据框:df1 和 df2。
2. 找到两个数据框中要合并的列,比如列名为 'key'。
3. 使用 pandas 的 merge 函数将两个数据框按照 'key' 列进行合并,合并方式为 inner(交集)。
4. 对合并后的结果进行去重,使用 pandas 的 drop_duplicates 函数,指定要去重的列名。
代码示例:
```
import pandas as pd
# 读取两个数据框
df1 = pd.read_csv('data1.csv')
df2 = pd.read_csv('data2.csv')
# 合并两个数据框
merged_df = pd.merge(df1, df2, on='key', how='inner')
# 去重
merged_df = merged_df.drop_duplicates(subset=['key'])
```
其中,'data1.csv' 和 'data2.csv' 分别为两个数据框的文件路径,'key' 为要合并的列名,how 参数说明了合并方式,inner 表示交集。合并后的结果保存在 merged_df 变量中,最后使用 drop_duplicates 函数去除重复行,subset 参数指定要去重的列名。
阅读全文