用python写一个图片型pdf文件转word文件的程序,且不需要安装引擎
时间: 2023-05-18 10:02:25 浏览: 229
Pdf2Text.Full.20150420_pdf_PDF文件内容提取工具源码_
5星 · 资源好评率100%
您好,以下是用Python编写图片型PDF文件转Word文件的程序:
```python
import io
import os
from PIL import Image
import pytesseract
import fitz
import docx
# 定义图片转文字函数
def img_to_text(img):
text = pytesseract.image_to_string(img, lang='chi_sim')
return text
# 定义PDF转图片函数
def pdf_to_img(pdf_path):
doc = fitz.open(pdf_path)
for pg in range(doc.page_count):
page = doc[pg]
zoom = int(100)
rotate = int(0)
trans = fitz.Matrix(zoom / 100.0, zoom / 100.0).preRotate(rotate)
pm = page.getPixmap(matrix=trans, alpha=False)
img = Image.open(io.BytesIO(pm.getImageData()))
yield img
# 定义PDF转Word函数
def pdf_to_word(pdf_path, word_path):
doc = docx.Document()
for img in pdf_to_img(pdf_path):
text = img_to_text(img)
doc.add_paragraph(text)
doc.save(word_path)
# 测试
pdf_path = 'test.pdf'
word_path = 'test.docx'
pdf_to_word(pdf_path, word_path)
```
请注意,此程序需要安装以下Python库:Pillow、pytesseract、fitz和python-docx。如果您没有安装这些库,请使用以下命令安装:
```python
pip install Pillow pytesseract PyMuPDF python-docx
```
希望这个程序能够帮助到您!
阅读全文