首页python 提取pdf图片和文字

python 提取pdf图片和文字

时间: 2023-08-05 17:08:47 浏览: 302

要在 Python 中提取 PDF 中的图片和文字，可以使用 PyPDF2 和 PyMuPDF 库。以下是一个示例代码： ```python import PyPDF2 import fitz # 打开 PDF 文件 pdf_file = open('example.pdf', 'rb') # 读取 PDF 中的文本 pdf_reader = PyPDF2.PdfFileReader(pdf_file) for page_num in range(pdf_reader.numPages): page_obj = pdf_reader.getPage(page_num) print(page_obj.extractText()) # 提取 PDF 中的图片 pdf_doc = fitz.open('example.pdf') for page_num in range(pdf_doc.page_count): page = pdf_doc[page_num] image_list = page.getImageList() for image_index, img in enumerate(image_list): xref = img[0] pix = fitz.Pixmap(pdf_doc, xref) if pix.n < 5: # 保存图片为 JPEG 格式 pix.writePNG("page%s-%s.png" % (page_num, image_index)) else: # 保存图片为 BMP 格式 pix.writeImage("page%s-%s.bmp" % (page_num, image_index)) pdf_file.close() ``` 这个代码示例使用 PyPDF2 库读取 PDF 中的文本，使用 PyMuPDF 库提取 PDF 中的图片。要使用这个示例代码，需要先在命令行中安装这两个库： ```bash pip install PyPDF2 PyMuPDF ```

阅读全文