Python pytesseract 代码
时间: 2023-07-10 22:36:34 浏览: 83
pytesseract:Python-tesseract是用于python的光学字符识别(OCR)工具
下面是一个使用 pytesseract 库进行中文字符识别的示例代码:
```python
import pytesseract
from PIL import Image
# 读取图像文件
image = Image.open('example.png')
# 转换为灰度图像
image = image.convert('L')
# 对图像进行二值化处理
threshold = 140
table = []
for i in range(256):
if i < threshold:
table.append(0)
else:
table.append(1)
image = image.point(table, '1')
# 进行字符识别
text = pytesseract.image_to_string(image, lang='chi_sim')
# 输出识别结果
print(text)
```
这个示例代码中使用了 PIL 库来读取图像文件,并将图像转换为灰度图像。然后,使用一个阈值将图像进行二值化处理,以便更容易识别其中的文本。最后,使用 pytesseract 库对图像进行字符识别,并输出识别结果。需要注意的是,这个示例代码中使用了中文简体语言模型(lang='chi_sim'),如果需要识别其他语言的字符,可以替换为相应的语言模型。
阅读全文