首页使用python语言批量识别pdf中的表格，并保存到excel中

使用python语言批量识别pdf中的表格，并保存到excel中

时间: 2024-03-17 15:41:18 浏览: 36

可以使用Python中的Tabula-py库来实现批量识别pdf中的表格，并将其保存到excel中。以下是一个简单的示例代码： ```python import tabula import pandas as pd import os # 设置pdf文件夹路径和excel文件夹路径 pdf_folder_path = 'path/to/pdf/folder/' excel_folder_path = 'path/to/excel/folder/' # 遍历pdf文件夹中的所有pdf文件 for filename in os.listdir(pdf_folder_path): if filename.endswith('.pdf'): # 读取pdf文件中的所有表格 df_list = tabula.read_pdf(os.path.join(pdf_folder_path, filename), pages='all') # 将表格保存到excel文件中 for i, df in enumerate(df_list): df.to_excel(os.path.join(excel_folder_path, f'{filename}_{i}.xlsx'), index=False) ``` 这段代码会读取pdf文件夹中的所有pdf文件，将其中的表格提取出来，保存到excel文件夹中。每个表格都会保存为一个独立的excel文件，文件名为pdf文件名加上表格在pdf文件中的页码。

阅读全文