遍历字典table_dic, 取字典里面的每一个dataframe 比如tmp_a, 与dataframe B表对比,如果tmp_a的表内容在B中不存在的部分,则更新到table B中
时间: 2024-09-28 09:06:13 浏览: 29
Python DataFrame使用drop_duplicates()函数去重(保留重复值,取重复值)
5星 · 资源好评率100%
遍历字典`table_dic`中的每个数据框(例如`tmp_a`),你可以采用Pandas库提供的功能来进行操作。首先,确保`dataframe B`已经加载并存储在一个变量中,比如叫做`df_B`。以下是一个步骤说明:
1. 使用循环结构,如`for`循环,遍历`table_dic`中的每个键值对。
```python
import pandas as pd
# 假设table_dic = {'tmp_a': df_a, 'tmp_b': df_b, ...}
for key, tmp_df in table_dic.items():
# 如果key对应的DataFrame不是直接引用B,而是需要读取其他文件,这里假设tmp_df已经是处理过的DataFrame
if key == 'tmp_a': # 示例中只针对'tmp_a'进行比较和更新
# 对比条件:检查tmp_df每一行是否存在于df_B中,可以用isin()函数
diff_rows = ~tmp_df[['列名1', '列名2', ...]].isin(df_B)
# 新的数据框,包含仅存在于tmp_df而不在df_B中的行
new_data = tmp_df[diff_rows]
# 将新数据添加到df_B中,若已存在相同的行则不做处理,可以用update()或concat()
if not new_data.empty:
# 更新现有数据
df_B.update(new_data)
# 或者合并数据(保持索引)
# df_B = pd.concat([df_B, new_data], ignore_index=True)
```
记得替换上述代码中的`'列名1'`, `'列名2'`等为你实际数据集的列名。
阅读全文