pandas 两个dataframe取差集并导出
时间: 2023-10-30 16:14:02 浏览: 84
可以使用pandas库中的merge函数,将两个dataframe进行合并,并设置参数indicator=True,这样就可以标记每行数据来自哪个dataframe。然后再根据标记筛选出只属于一个dataframe的数据,即为差集。最后再导出为csv文件。以下是示例代码:
```python
import pandas as pd
# 创建两个dataframe
df1 = pd.DataFrame({'A': ['a', 'b', 'c'], 'B': [1, 2, 3]})
df2 = pd.DataFrame({'A': ['a', 'd', 'e'], 'B': [1, 4, 5]})
# 合并两个dataframe
merged = pd.merge(df1, df2, on=['A', 'B'], how='outer', indicator=True)
# 筛选出只属于一个dataframe的数据
diff = merged.loc[merged['_merge'].isin(['left_only', 'right_only'])]
# 导出为csv文件
diff.to_csv('diff.csv', index=False)
```
当然,以上代码只是示例,实际应用中需要根据具体需求进行改动。
阅读全文