用python,把一个文件夹内的图片识别成文字,新建word文档把每个图片的识别文字放入图片下方
时间: 2024-02-11 14:04:43 浏览: 74
基于python的图片文字识别。
5星 · 资源好评率100%
要实现这个功能,需要使用Python中的一些第三方库,包括Pillow、pytesseract、python-docx等等。以下是一个示例代码:
```python
from PIL import Image
import pytesseract
from docx import Document
from docx.shared import Inches
# 设置tesseract-ocr的安装路径
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'
# 定义函数,将图片转换为文字
def image_to_text(image_path):
image = Image.open(image_path)
text = pytesseract.image_to_string(image, lang='eng')
return text
# 定义函数,将识别的文字添加到Word文档中
def add_text_to_word(text, image_path):
document = Document()
document.add_picture(image_path, width=Inches(6)) # 添加图片
document.add_paragraph(text) # 添加识别的文字
document.save('result.docx')
# 遍历文件夹中的图片,依次进行识别并添加到Word文档中
import os
folder_path = 'path/to/folder'
for filename in os.listdir(folder_path):
if filename.endswith('.jpg') or filename.endswith('.png'):
image_path = os.path.join(folder_path, filename)
text = image_to_text(image_path)
add_text_to_word(text, image_path)
```
这个代码会将指定文件夹中的所有.jpg或.png格式的图片进行识别,并将识别的文字添加到一个名为result.docx的Word文档中,每个图片的识别文字会放在图片下方。注意需要先安装Pillow、pytesseract和python-docx这三个库。
阅读全文