python怎么用plumber库而不使用openpyxl库,把多个PDF批量写入excel,每个pdf的内容写入一个单元格
时间: 2024-04-09 15:29:15 浏览: 161
Python库 | devpi_plumber-0.2.9-py2.py3-none-any.whl
如果你想要将多个PDF文件的内容写入Excel,并且每个PDF的内容写入一个单元格,但不使用openpyxl库,可以使用plumber库的`extract_text()`方法将PDF内容提取为字符串,然后使用其他库(如pandas)将数据写入Excel文件。下面是一个示例代码:
```python
import pdfplumber
import pandas as pd
def write_pdf_to_excel(pdf_path, excel_file):
with pdfplumber.open(pdf_path) as pdf:
text = ""
for page in pdf.pages:
text += page.extract_text()
df = pd.DataFrame([text])
df.to_excel(excel_file, index=False, header=False)
# 假设你有一个包含多个PDF文件路径的列表
pdf_files = ["pdf1.pdf", "pdf2.pdf", "pdf3.pdf"]
# 创建一个新的Excel文件
excel_file = "output.xlsx"
for pdf_file in pdf_files:
write_pdf_to_excel(pdf_file, excel_file)
```
在上面的代码中,我们定义了一个`write_pdf_to_excel`函数,它接收一个PDF文件路径和一个Excel文件路径作为参数。在函数内部,我们使用pdfplumber打开PDF文件,并遍历每个页面,将页面的文本内容累加到`text`变量中。
然后,我们创建一个包含`text`的DataFrame对象,并使用`to_excel()`方法将DataFrame写入Excel文件中。我们通过设置`index=False`和`header=False`来去除默认生成的行索引和列标题。
最后,我们通过循环遍历每个PDF文件,并调用`write_pdf_to_excel`函数来将每个PDF的内容写入Excel文件。
请确保在运行代码之前安装了pdfplumber和pandas库,可以使用`pip install pdfplumber pandas`命令进行安装。
阅读全文