使用python批量提取excel表格内文件的父文件夹名称,并保存
时间: 2023-05-31 11:07:48 浏览: 113
答:你可以使用Python的xlrd库来读取Excel文件,并使用os库来提取文件路径的父文件夹名称。具体步骤如下:
1.使用xlrd库打开Excel文件,读取需要的列或者行数据。
2.遍历这些数据对应的文件路径,使用os.path.dirname()函数可以获取文件路径的父文件夹名称。
3.将父文件夹名称保存到新的Excel表格或者其他格式的文件中。
示例代码:
```
import xlrd
import os
# 打开Excel文件
workbook = xlrd.open_workbook('example.xls')
sheet = workbook.sheet_by_index(0)
# 遍历数据
for i in range(1, sheet.nrows):
row_values = sheet.row_values(i)
file_path = row_values[0] # 假设第一列是文件路径
folder_name = os.path.basename(os.path.dirname(file_path))
# 保存父文件夹名称
# ...
```
这个代码可以批量处理Excel表格中的数据,提取文件路径的父文件夹名称。如果需要保存结果,可以使用Python的 xlwt库 或 pandas库来将数据保存到Excel表格、CSV文件等格式中。
相关问题
如何用Python批量将word文档表格内容提取至Excel表格里面
可以使用Python库`python-docx`和`openpyxl`来实现将Word文档表格内容批量提取至Excel表格里面的功能。具体步骤如下:
1. 安装`python-docx`和`openpyxl`库:
```python
pip install python-docx
pip install openpyxl
```
2. 导入需要使用的库:
```python
import os
from docx import Document
from openpyxl import Workbook
```
3. 遍历指定文件夹下的Word文档,读取表格内容,并将表格内容写入Excel表格:
```python
# 指定需要读取的Word文档所在文件夹路径
doc_folder_path = 'your/doc/folder/path'
# 初始化Excel工作簿
wb = Workbook()
ws = wb.active
# 遍历指定文件夹下的所有Word文档
for filename in os.listdir(doc_folder_path):
if filename.endswith('.docx'):
doc_path = os.path.join(doc_folder_path, filename)
doc = Document(doc_path)
# 遍历Word文档中的所有表格
for table in doc.tables:
# 遍历表格中的所有行和列,将表格内容写入Excel表格
for i, row in enumerate(table.rows):
row_data = []
for cell in row.cells:
row_data.append(cell.text)
ws.append(row_data)
# 保存Excel表格
wb.save('table_data.xlsx')
```
这样,就可以将指定文件夹下的所有Word文档中的表格内容批量提取到同一个Excel表格中。
使用python语言批量识别pdf中的表格,并保存到excel中
可以使用Python中的Tabula-py库来实现批量识别pdf中的表格,并将其保存到excel中。以下是一个简单的示例代码:
```python
import tabula
import pandas as pd
import os
# 设置pdf文件夹路径和excel文件夹路径
pdf_folder_path = 'path/to/pdf/folder/'
excel_folder_path = 'path/to/excel/folder/'
# 遍历pdf文件夹中的所有pdf文件
for filename in os.listdir(pdf_folder_path):
if filename.endswith('.pdf'):
# 读取pdf文件中的所有表格
df_list = tabula.read_pdf(os.path.join(pdf_folder_path, filename), pages='all')
# 将表格保存到excel文件中
for i, df in enumerate(df_list):
df.to_excel(os.path.join(excel_folder_path, f'{filename}_{i}.xlsx'), index=False)
```
这段代码会读取pdf文件夹中的所有pdf文件,将其中的表格提取出来,保存到excel文件夹中。每个表格都会保存为一个独立的excel文件,文件名为pdf文件名加上表格在pdf文件中的页码。
阅读全文