使用python语言批量识别pdf中的表格,并保存到excel中
时间: 2024-03-17 15:41:18 浏览: 36
可以使用Python中的Tabula-py库来实现批量识别pdf中的表格,并将其保存到excel中。以下是一个简单的示例代码:
```python
import tabula
import pandas as pd
import os
# 设置pdf文件夹路径和excel文件夹路径
pdf_folder_path = 'path/to/pdf/folder/'
excel_folder_path = 'path/to/excel/folder/'
# 遍历pdf文件夹中的所有pdf文件
for filename in os.listdir(pdf_folder_path):
if filename.endswith('.pdf'):
# 读取pdf文件中的所有表格
df_list = tabula.read_pdf(os.path.join(pdf_folder_path, filename), pages='all')
# 将表格保存到excel文件中
for i, df in enumerate(df_list):
df.to_excel(os.path.join(excel_folder_path, f'{filename}_{i}.xlsx'), index=False)
```
这段代码会读取pdf文件夹中的所有pdf文件,将其中的表格提取出来,保存到excel文件夹中。每个表格都会保存为一个独立的excel文件,文件名为pdf文件名加上表格在pdf文件中的页码。
阅读全文