如何提取一个文件夹里的多个PDF文件里的多个数据,并保存到xlsx文件中
时间: 2024-12-06 09:21:26 浏览: 15
提取一个文件夹内的多个PDF文件中的数据并保存到Excel文件中通常涉及几个步骤,这里我会简述一种常见的Python方法,使用`tabula-py`库读取PDF内容,然后结合`pandas`处理数据并保存到Excel。假设你已经安装了`tabula-py`, `pandas`, 和 `openpyxl` 这些库。
1. 导入必要的库:
```python
import os
import pandas as pd
from tabula import read_pdf
```
2. 定义函数来处理单个PDF文件:
```python
def extract_data_from_pdf(pdf_path):
data = read_pdf(pdf_path, pages='all') # 默认读取所有页面
if isinstance(data, list): # 如果有多个表格,合并成一个DataFrame
df = pd.concat(data)
else:
df = data
return df
```
3. 遍历文件夹,提取每个PDF的数据:
```python
def process_folder(input_folder, output_excel):
dfs = []
for filename in os.listdir(input_folder):
if filename.endswith('.pdf'):
pdf_path = os.path.join(input_folder, filename)
extracted_df = extract_data_from_pdf(pdf_path)
dfs.append(extracted_df)
combined_df = pd.concat(dfs) # 合并所有单独的数据框
4. 将数据写入Excel文件:
```python
combined_df.to_excel(output_excel, index=False) # 输出到指定路径的Excel文件
```
5. 调用函数并传递参数:
```python
input_folder = 'your_pdf_folder'
output_excel = 'extracted_data.xlsx'
process_folder(input_folder, output_excel)
```
阅读全文