import os import pandas as pd from openpyxl import load_workbook from openpyxl.utils.dataframe import dataframe_to_rows # 指定要合并的文件夹路径 folder_path = r"E:\aaaa\aaaa" fields_to_write = ['aaaa', 'aaaa'] # 获取文件夹中所有的 xlsx 文件路径 xlsx_files = [os.path.join(folder_path, f) for f in os.listdir(folder_path) if f.endswith('.xlsx')] # 创建一个空的 DataFrame 用于存储合并后的数据 merged_data = pd.DataFrame() # 循环读取每个 xlsx 文件，将它们合并到 merged_data 中 for xlsx_file in xlsx_files: # 使用 pandas 读取 xlsx 文件，并清理无效字符引用 wb = load_workbook(filename=xlsx_file, read_only=False, data_only=True, keep_vba=False, keep_links=False, keep_protection=False) for sheet_name in wb.sheetnames: ws = wb[sheet_name] for row in ws.rows: for cell in row: cell.value = cell.value if cell.value is None else str(cell.value).strip() df = pd.read_excel(wb) # 将读取到的数据追加到 merged_data 中 merged_data = merged_data.append(df, ignore_index=True) # 在 merged_data 中添加新的一列数据 merged_data['new_column'] = 'new_value' # 创建一个新的工作簿 wb_new = load_workbook(write_only=True) ws_new = wb_new.create_sheet('merged_data') # 将 DataFrame 中的数据逐行写入到新的工作簿中 rows = dataframe_to_rows(merged_data[fields_to_write + ['new_column']], index=False) for row in rows: ws_new.append(row) # 保存合并后的数据到新的 xlsx 文件中 wb_new.save(r"E:\aaaa\aaaa\merged_file.xlsx")使用此代码会出现ValueError: Invalid file path or buffer object type: <class 'openpyxl.workbook.workbook.Workbook'>的报错，请优化下

时间: 2024-03-17 18:41:00 浏览: 135

pandas.read_csv参数详解(小结)

### pandas.read_csv 参数详解 `pandas.read_csv` 是 Pandas 库中一个非常重要的函数，主要用于从 CSV 文件中读取数据并将其转换为 DataFrame 对象。以下是对该函数各个参数的详细介绍： #### filepath_or_buffer - **描述**：指定要读取的 CSV 文件路径或缓冲区对象。 - **类型**：可以是字符串、`pathlib.Path`、`py._path.local.LocalPath` 或任何具有 `read()` 方法的对象（如文件句柄或 `StringIO` 对象）。 - **支持的 URL 类型**：包括 `http`、`ftp`、`s3` 和本地文件路径。 - **示例**： - 本地文件路径：`"C:\\local\\path\\to\\table.csv"` - HTTP 地址：`"http://example.com/data.csv"` #### sep - **描述**：指定 CSV 文件中数据项之间的分隔符，默认为逗号。 - **类型**：字符串。 - **默认值**：`,`。 - **特殊处理**：如果分隔符长度超过一个字符且不是 `\s+`，将使用 Python 的正则表达式解析器进行解析，并忽略数据中的逗号。 - **示例**：`'\t'` 表示使用制表符作为分隔符。 #### delimiter - **描述**：提供了一个备选的分隔符选项，与 `sep` 相互排斥，即如果设置了 `delimiter`，则 `sep` 将被忽略。 - **类型**：字符串。 - **默认值**：`None`。 - **示例**：`';'` #### delim_whitespace - **描述**：指定是否使用空白字符（如空格或制表符）作为分隔符。 - **类型**：布尔值。 - **默认值**：`False`。 - **等效设置**：若设为 `True`，则等同于设置 `sep='\s+'`。 - **版本支持**：自 Pandas 0.18.1 版本起支持。 #### header - **描述**：指定哪些行应被用作列名。 - **类型**：整数或整数列表。 - **默认值**：`'infer'`，自动检测 CSV 文件中是否存在表头行。 - **示例**： - `0`：表示第一行作为列名。 - `None`：表示无表头行。 - `[0, 1]`：表示第 1 行和第 2 行作为多级列名。 #### names - **描述**：当 CSV 文件中没有显式定义列名时，可以使用此参数指定列名列表。 - **类型**：数组样式的对象。 - **默认值**：`None`。 - **示例**：`['name', 'age', 'gender']` - **注意事项**：如果 `header` 已经指定了列名，则 `names` 将被忽略。 #### index_col - **描述**：指定哪些列应被用作行索引。 - **类型**：整数、字符串或整数/字符串列表。 - **默认值**：`None`。 - **示例**：`0` 表示使用第一列作为索引列。 - **特殊情况**：如果设置为 `False`，则不会使用任何列作为索引。 #### usecols - **描述**：仅读取 CSV 文件中的某些列。 - **类型**：数组样式的对象。 - **默认值**：`None`。 - **示例**：`[0, 2, 3]` 表示只读取第 1、3、4 列；`['name', 'age']` 表示只读取名为 `name` 和 `age` 的列。 - **优点**：可以减少内存占用和提高读取速度。 #### as_recarray - **描述**：已废弃，未来版本将移除。 - **类型**：布尔值。 - **默认值**：`False`。 - **替代方案**：建议使用 `pd.read_csv().to_records()`。 #### squeeze - **描述**：如果 CSV 文件仅包含一列，则返回 Series 而不是 DataFrame。 - **类型**：布尔值。 - **默认值**：`False`。 #### prefix - **描述**：当 `header=None` 时，为列添加前缀。 - **类型**：字符串。 - **默认值**：`None`。 - **示例**：设置为 `'X'` 后，列名变为 `X0`, `X1`, `X2` 等。 #### mangle_dupe_cols - **描述**：决定如何处理重复的列名。 - **类型**：布尔值。 - **默认值**：`True`。 - **示例**：若设为 `True`，则重复的列名会被重命名为 `X.0`, `X.1` 等。 #### dtype - **描述**：指定各列的数据类型。 - **类型**：数据类型名称或列名到数据类型的映射字典。 - **默认值**：`None`。 - **示例**：`{'name': str, 'age': int}`。 #### engine - **描述**：指定使用的解析引擎。 - **类型**：字符串。 - **可选值**：`'c'` 或 `'python'`。 - **默认值**：通常为 `'c'`。 - **性能差异**：C 引擎通常更快，但 Python 引擎可能更灵活。 ### 总结通过上述介绍可以看出，`pandas.read_csv` 函数提供了丰富的参数配置选项，能够满足用户在不同场景下的需求。理解这些参数的具体含义及其用法，可以帮助我们更高效地读取和处理 CSV 文件。希望本文的详细介绍对你在实际工作中有所帮助！

根据报错信息，我猜测可能是在 `pd.read_excel(wb)` 这一行代码中出现了问题。`pd.read_excel()` 方法中的参数应该是文件路径或文件对象，而不是工作簿对象。因此，你可以先将工作簿保存为文件，然后再使用 `pd.read_excel()` 方法读取文件中的内容。修改后的代码如下： ```python import os import pandas as pd from openpyxl import load_workbook from openpyxl.utils.dataframe import dataframe_to_rows # 指定要合并的文件夹路径 folder_path = r"E:\aaaa\aaaa" fields_to_write = ['aaaa', 'aaaa'] # 获取文件夹中所有的 xlsx 文件路径 xlsx_files = [os.path.join(folder_path, f) for f in os.listdir(folder_path) if f.endswith('.xlsx')] # 创建一个空的 DataFrame 用于存储合并后的数据 merged_data = pd.DataFrame() # 循环读取每个 xlsx 文件，将它们合并到 merged_data 中 for xlsx_file in xlsx_files: # 使用 pandas 读取 xlsx 文件，并清理无效字符引用 wb = load_workbook(filename=xlsx_file, read_only=False, data_only=True, keep_vba=False, keep_links=False, keep_protection=False) for sheet_name in wb.sheetnames: ws = wb[sheet_name] for row in ws.rows: for cell in row: cell.value = cell.value if cell.value is None else str(cell.value).strip() # 将工作簿保存为临时文件 temp_file = f"{os.path.splitext(xlsx_file)[0]}_temp.xlsx" wb.save(temp_file) # 读取临时文件中的数据 df = pd.read_excel(temp_file) # 删除临时文件 os.remove(temp_file) # 将读取到的数据追加到 merged_data 中 merged_data = merged_data.append(df, ignore_index=True) # 在 merged_data 中添加新的一列数据 merged_data['new_column'] = 'new_value' # 创建一个新的工作簿 wb_new = load_workbook(write_only=True) ws_new = wb_new.create_sheet('merged_data') # 将 DataFrame 中的数据逐行写入到新的工作簿中 rows = dataframe_to_rows(merged_data[fields_to_write + ['new_column']], index=False) for row in rows: ws_new.append(row) # 保存合并后的数据到新的 xlsx 文件中 wb_new.save(r"E:\aaaa\aaaa\merged_file.xlsx") ``` 这样修改后，你应该就可以成功合并文件并保存为新的 xlsx 文件了。

阅读全文

相关推荐

Python pandas.DataFrame.loc用法深度解析

Pandas Excel操作：read_excel与to_excel函数详解

Python3.7Openpyxl离线包

使用openpyxl与Pandas进行数据分析与处理

使用openpyxl进行数据的合并、拆分与转换

Openpyxl中的数据适配与转换

NameError: name 'dataframe_to_rows' is not defined

用python将新建的df按两列分组，两个列名分别为表名和sheeet名，把分组后的df按顺序输出到已有excel中的倒数第二个sheet，表头填充为浅蓝色，全表加边框，居中，i注意：不用load_workbook

openpyxl 结合 pandas

openpyxl 中插入dataframe类型数据

使用pandas时，提示warn("Workbook contains no default style, apply openpyxl's default")

df.to_excel 设置内容垂直居中

style_df是样式化后的DataFrame对象，如何修改在插入Excel表中包含列标题 并且时间格式为yyyy-mm

openpyxl批量写入数据

openpyxl中保存数据有那些写法

openpyxl对已有excel进行写入

openpyxl转换csv文件到excel文件

最新推荐

全国江河水系图层shp文件包下载

管理建模和仿真的文件

Keras模型压缩与优化：减小模型尺寸与提升推理速度

MTK 6229 BB芯片在手机中有哪些核心功能，OTG支持、Wi-Fi支持和RTC晶振是如何实现的？

点云二值化测试数据集的详细解读

"互动学习：行动中的多样性与论文攻读经历"

Keras正则化技术应用：L1_L2与Dropout的深入理解

在Python中使用xarray和cfgrib库处理GRIB数据时，如何有效解决遇到的DatasetBuildError错误？

JDiskCat：跨平台开源磁盘目录工具

关系数据表示学习

style_df是样式化后的DataFrame对象，如何修改在插入Excel表中包含列标题并且时间格式为yyyy-mm