批量提取pdf第一页的python代码
时间: 2024-12-15 11:15:37 浏览: 54
在Python中,我们可以使用PyPDF2
库来批量提取PDF文件的第一页。以下是一个简单的示例代码:
import os
import PyPDF2
def extract_first_page_from_pdf(directory):
# 遍历指定目录下的所有PDF文件
for filename in os.listdir(directory):
if filename.endswith('.pdf'):
filepath = os.path.join(directory, filename)
# 打开PDF文件
with open(filepath, 'rb') as file:
reader = PyPDF2.PdfFileReader(file)
# 提取并保存第一页
first_page = reader.getPage(0)
extracted_text = first_page.extractText() # 如果需要文本内容
# 或者只保存图片(如果是图像化的PDF)
extracted_image_data = first_page.extractImageData()
# 根据需求,将结果保存到新的PDF、txt或image文件等
# 调用函数,传入你想处理的PDF文件夹路径
extract_first_page_from_pdf('/path/to/your/pdf/folder')
这个代码会遍历指定目录下的所有PDF文件,对每一本提取第一页的内容。请注意,对于非文本型PDF(比如包含图片的PDF),extractText()
方法可能无法获取文字,你可以使用extractImageData()
来保存图片数据。
相关推荐



















