用pytesseract识别图片中文字并保存到excel中代码生成
时间: 2023-12-22 20:05:02 浏览: 125
下面是使用PyTesseract识别图片中文字并将其保存到Excel中的示例代码:
```python
import pytesseract
from PIL import Image
import openpyxl
# 读取图片
image = Image.open('input.png')
# 使用pytesseract进行文字识别
text = pytesseract.image_to_string(image)
# 创建一个新的Excel文件,并获取活动工作表
wb = openpyxl.Workbook()
ws = wb.active
# 将识别后的文字按行分割,并写入Excel中
rows = text.split('\n')
for i, row in enumerate(rows):
# 按列分割文字,并写入单元格
columns = row.split('\t')
for j, col in enumerate(columns):
ws.cell(row=i+1, column=j+1).value = col
# 保存Excel文件
wb.save('output.xlsx')
```
在上述代码中,我们使用`pytesseract`库对输入的图片进行文字识别。然后,我们使用`openpyxl`库创建一个新的Excel文件,并获取活动工作表。接下来,我们将识别后的文字按行分割,再按列分割,并将其写入Excel文件的相应单元格中。最后,我们使用`save`函数保存Excel文件。
请确保已经正确安装了`pytesseract`、`PIL`和`openpyxl`库,并且将输入图片命名为`input.png`并放置在与代码文件相同的目录下。运行代码后,将会生成一个名为`output.xlsx`的Excel文件,其中包含了识别出的文字。
请注意,为了使用`pytesseract`库,您需要先安装Tesseract OCR引擎,并将其配置到系统环境变量中。另外,根据您的实际需求,您可能需要对代码进行适当的调整,以处理不同类型的图片和表格结构。
阅读全文