df_merged = merged_df[~merged_df['name'].isin(data1['name'])]
时间: 2023-10-10 13:07:47 浏览: 31
这是一个 Python 代码片段,用于从一个名为`merged_df`的数据框中删除在另一个名为`data1`的数据框中出现的所有`name`列的值。具体来说,`~`符号表示取反操作,`isin()`方法用于判断某个值是否在另一个序列中出现,最终返回一个布尔值序列,用于过滤`merged_df`中不在`data1`中出现的行。
相关问题
import os import pandas as pd from openpyxl import load_workbook from openpyxl.utils.dataframe import dataframe_to_rows # 指定要合并的文件夹路径 folder_path = r"E:\aaaa\aaaa" fields_to_write = ['aaaa', 'aaaa'] # 获取文件夹中所有的 xlsx 文件路径 xlsx_files = [os.path.join(folder_path, f) for f in os.listdir(folder_path) if f.endswith('.xlsx')] # 创建一个空的 DataFrame 用于存储合并后的数据 merged_data = pd.DataFrame() # 循环读取每个 xlsx 文件,将它们合并到 merged_data 中 for xlsx_file in xlsx_files: # 使用 pandas 读取 xlsx 文件,并清理无效字符引用 wb = load_workbook(filename=xlsx_file, read_only=False, data_only=True, keep_vba=False, keep_links=False, keep_protection=False) for sheet_name in wb.sheetnames: ws = wb[sheet_name] for row in ws.rows: for cell in row: cell.value = cell.value if cell.value is None else str(cell.value).strip() df = pd.read_excel(wb) # 将读取到的数据追加到 merged_data 中 merged_data = merged_data.append(df, ignore_index=True) # 在 merged_data 中添加新的一列数据 merged_data['new_column'] = 'new_value' # 创建一个新的工作簿 wb_new = load_workbook(write_only=True) ws_new = wb_new.create_sheet('merged_data') # 将 DataFrame 中的数据逐行写入到新的工作簿中 rows = dataframe_to_rows(merged_data[fields_to_write + ['new_column']], index=False) for row in rows: ws_new.append(row) # 保存合并后的数据到新的 xlsx 文件中 wb_new.save(r"E:\aaaa\aaaa\merged_file.xlsx")使用此代码会出现ValueError: Invalid file path or buffer object type: <class 'openpyxl.workbook.workbook.Workbook'>的报错,请优化下
根据报错信息,我猜测可能是在 `pd.read_excel(wb)` 这一行代码中出现了问题。`pd.read_excel()` 方法中的参数应该是文件路径或文件对象,而不是工作簿对象。因此,你可以先将工作簿保存为文件,然后再使用 `pd.read_excel()` 方法读取文件中的内容。修改后的代码如下:
```python
import os
import pandas as pd
from openpyxl import load_workbook
from openpyxl.utils.dataframe import dataframe_to_rows
# 指定要合并的文件夹路径
folder_path = r"E:\aaaa\aaaa"
fields_to_write = ['aaaa', 'aaaa']
# 获取文件夹中所有的 xlsx 文件路径
xlsx_files = [os.path.join(folder_path, f) for f in os.listdir(folder_path) if f.endswith('.xlsx')]
# 创建一个空的 DataFrame 用于存储合并后的数据
merged_data = pd.DataFrame()
# 循环读取每个 xlsx 文件,将它们合并到 merged_data 中
for xlsx_file in xlsx_files:
# 使用 pandas 读取 xlsx 文件,并清理无效字符引用
wb = load_workbook(filename=xlsx_file, read_only=False, data_only=True, keep_vba=False, keep_links=False, keep_protection=False)
for sheet_name in wb.sheetnames:
ws = wb[sheet_name]
for row in ws.rows:
for cell in row:
cell.value = cell.value if cell.value is None else str(cell.value).strip()
# 将工作簿保存为临时文件
temp_file = f"{os.path.splitext(xlsx_file)[0]}_temp.xlsx"
wb.save(temp_file)
# 读取临时文件中的数据
df = pd.read_excel(temp_file)
# 删除临时文件
os.remove(temp_file)
# 将读取到的数据追加到 merged_data 中
merged_data = merged_data.append(df, ignore_index=True)
# 在 merged_data 中添加新的一列数据
merged_data['new_column'] = 'new_value'
# 创建一个新的工作簿
wb_new = load_workbook(write_only=True)
ws_new = wb_new.create_sheet('merged_data')
# 将 DataFrame 中的数据逐行写入到新的工作簿中
rows = dataframe_to_rows(merged_data[fields_to_write + ['new_column']], index=False)
for row in rows:
ws_new.append(row)
# 保存合并后的数据到新的 xlsx 文件中
wb_new.save(r"E:\aaaa\aaaa\merged_file.xlsx")
```
这样修改后,你应该就可以成功合并文件并保存为新的 xlsx 文件了。
import osimport reimport pandas as pd# 正则表达式regex = re.compile(r'^2-.*\.xlsx$')continuation_regex = re.compile(r'^\d+\s.*$') # 这里假设续表的第一列为数字加空格# 读取所有符合条件的xlsx文件files = [f for f in os.listdir('.') if os.path.isfile(f) and regex.match(f)]dfs = []for file in files: df = pd.read_excel(file, sheet_name=None, engine='openpyxl') for sheet_name, sheet_df in df.items(): # 判断续表并添加到之前的表格中 if sheet_df.iloc[0, 0] and continuation_regex.match(str(sheet_df.iloc[0, 0])): dfs[-1] = pd.concat([dfs[-1], sheet_df]) else: dfs.append(sheet_df)# 合并所有表格merged_df = pd.concat(dfs)# 根据城市为键合并所有表格grouped_df = merged_df.groupby('城市').agg(lambda x: x.tolist())# 将所有列表转换为字符串并重新转换为DataFramegrouped_df = grouped_df.applymap(lambda x: ','.join([str(i) for i in x]))grouped_df = pd.DataFrame(grouped_df.to_dict())# 输出结果print(grouped_df) 修改为遍历指定列表
如果想要修改这段代码,使其不再遍历当前文件夹下的xlsx文件,而是遍历指定文件夹下的xlsx文件,可以将os.listdir('.')替换为os.listdir('指定文件夹路径'),例如:
```
import os
import re
import pandas as pd
# 正则表达式
regex = re.compile(r'^2-.*\.xlsx$')
continuation_regex = re.compile(r'^\d+\s.*$') # 这里假设续表的第一列为数字加空格
# 指定文件夹路径
folder_path = '指定文件夹路径'
# 读取所有符合条件的xlsx文件
files = [os.path.join(folder_path, f) for f in os.listdir(folder_path) if os.path.isfile(os.path.join(folder_path, f)) and regex.match(f)]
dfs = []
for file in files:
df = pd.read_excel(file, sheet_name=None, engine='openpyxl')
for sheet_name, sheet_df in df.items():
# 判断续表并添加到之前的表格中
if sheet_df.iloc[0, 0] and continuation_regex.match(str(sheet_df.iloc[0, 0])):
dfs[-1] = pd.concat([dfs[-1], sheet_df])
else:
dfs.append(sheet_df)
# 合并所有表格
merged_df = pd.concat(dfs)
# 根据城市为键合并所有表格
grouped_df = merged_df.groupby('城市').agg(lambda x: x.tolist())
# 将所有列表转换为字符串并重新转换为DataFrame
grouped_df = grouped_df.applymap(lambda x: ','.join([str(i) for i in x]))
grouped_df = pd.DataFrame(grouped_df.to_dict())
# 输出结果
print(grouped_df)
```
其中,需要将'指定文件夹路径'替换为实际的文件夹路径。