python批量提取PDF文档信息
时间: 2023-08-11 20:08:29 浏览: 105
python批量提取pdf表格与文字
5星 · 资源好评率100%
可以使用Python的第三方库PyPDF2来提取PDF文档的信息。以下是一个简单的示例代码,可以批量读取指定文件夹下的所有PDF文件,并提取出其标题、作者、创建日期等信息。
```python
import os
import PyPDF2
folder_path = "/path/to/folder" # 指定目标文件夹路径
for filename in os.listdir(folder_path):
if filename.endswith(".pdf"): # 仅处理PDF文件
file_path = os.path.join(folder_path, filename)
with open(file_path, "rb") as f:
pdf = PyPDF2.PdfFileReader(f)
info = pdf.getDocumentInfo()
print("Title:", info.title)
print("Author:", info.author)
print("Creator:", info.creator)
print("Producer:", info.producer)
print("Creation Date:", info.creationDate)
print("Modification Date:", info.modDate)
```
注意,PyPDF2并不支持所有的PDF文件格式,有些文件可能无法被正确读取。如果你遇到了这种问题,可以考虑使用其他的PDF处理库,比如PDFMiner或pdfplumber。
阅读全文