用python,把特定文件夹内的图片识别成中文文字,新建word文档把每个图片的识别文字放入图片下方
时间: 2023-08-05 10:10:29 浏览: 188
要实现这个功能,你可以使用以下步骤:
1. 安装必要的 Python 库,例如:pytesseract, pillow 和 python-docx。
```
pip install pytesseract pillow python-docx
```
2. 导入必要的库。
```python
import os
import pytesseract
from PIL import Image
from docx import Document
from docx.shared import Inches
```
3. 定义一个函数,用于将图片转换为中文文字。
```python
def image_to_text(image_path):
image = Image.open(image_path)
text = pytesseract.image_to_string(image, lang='chi_sim')
return text
```
这里的 `lang='chi_sim'` 表示使用中文简体语言包进行识别。
4. 定义一个函数,用于将所有图片的文字识别结果保存到 Word 文档中。
```python
def save_text_to_word(image_dir, output_path):
# 创建 Word 文档对象
document = Document()
# 遍历指定目录下的所有图片文件
for filename in os.listdir(image_dir):
if filename.endswith('.jpg') or filename.endswith('.png'):
# 构造图片文件的完整路径
image_path = os.path.join(image_dir, filename)
# 将图片转换为中文文字
text = image_to_text(image_path)
# 添加图片和文字到 Word 文档中
p = document.add_paragraph()
r = p.add_run()
r.add_picture(image_path, width=Inches(6))
r = p.add_run('\n' + text)
# 保存 Word 文档
document.save(output_path)
```
5. 调用 `save_text_to_word()` 函数,将所有图片的文字识别结果保存到 Word 文档中。
```python
image_dir = 'path/to/image/dir'
output_path = 'path/to/output.docx'
save_text_to_word(image_dir, output_path)
```
注意:在运行代码前,需要确保 pytesseract 和 tesseract 语言包已经正确安装。另外,由于图片识别需要消耗大量的计算资源,所以运行时间可能会比较长。
阅读全文