首页用python，把一个文件夹内的图片识别成文字，新建word文档把每个图片的识别文字放入图片下方

用python，把一个文件夹内的图片识别成文字，新建word文档把每个图片的识别文字放入图片下方

时间: 2024-02-11 14:04:43 浏览: 74

基于python的图片文字识别。

5星 · 资源好评率100%

不知道大家有没有遇到过这样的问题，就是在某个软件或者某个网页里面有一篇文章，你非常喜欢，但是不能复制。或者像百度文档一样，只能复制一部分，这个时候我们就会选择截图保存。但是当我们想用到里面的文字时，还是要一个字一个字打出来。那么我们能不能直接识别图片中的文字呢？答案是肯定的。

要实现这个功能，需要使用Python中的一些第三方库，包括Pillow、pytesseract、python-docx等等。以下是一个示例代码： ```python from PIL import Image import pytesseract from docx import Document from docx.shared import Inches # 设置tesseract-ocr的安装路径 pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe' # 定义函数，将图片转换为文字 def image_to_text(image_path): image = Image.open(image_path) text = pytesseract.image_to_string(image, lang='eng') return text # 定义函数，将识别的文字添加到Word文档中 def add_text_to_word(text, image_path): document = Document() document.add_picture(image_path, width=Inches(6)) # 添加图片 document.add_paragraph(text) # 添加识别的文字 document.save('result.docx') # 遍历文件夹中的图片，依次进行识别并添加到Word文档中 import os folder_path = 'path/to/folder' for filename in os.listdir(folder_path): if filename.endswith('.jpg') or filename.endswith('.png'): image_path = os.path.join(folder_path, filename) text = image_to_text(image_path) add_text_to_word(text, image_path) ``` 这个代码会将指定文件夹中的所有.jpg或.png格式的图片进行识别，并将识别的文字添加到一个名为result.docx的Word文档中，每个图片的识别文字会放在图片下方。注意需要先安装Pillow、pytesseract和python-docx这三个库。

阅读全文