基于Python的OCR文字识别代码
时间: 2024-06-10 16:03:19 浏览: 219
在Python中,OCR(Optical Character Recognition,光学字符识别)是一种技术,用于从图像或扫描文档中识别文本。Tesseract OCR是一个非常流行且开源的库,常被用于Python项目中实现文字识别。以下是一个简单的使用Tesseract和`pytesseract`库进行OCR的基本代码示例:
```python
from PIL import Image
import pytesseract
# 加载图片
image_path = "path_to_your_image.jpg"
img = Image.open(image_path)
# 使用pytesseract进行识别
text = pytesseract.image_to_string(img, lang='eng') # 选择英文识别,其他语言如'chi_sim' for简体中文
# 输出识别的文字
print(text)
```
注意:
1. 首先确保已经安装了Tesseract OCR引擎(下载并安装对应平台版本),以及`pytesseract`包(`pip install pytesseract opencv-python-headless`)。
2. `lang`参数可以根据需要更改,`eng`表示英文,`chi_sim`表示简体中文等。
3. 对于复杂的图像,可能需要预处理(如灰度化、二值化、去除噪声)才能提高识别准确率。
相关问题:
1. 除了Tesseract,还有哪些Python OCR库可以使用?
2. 如何提高OCR识别图像中的文字的准确率?
3. pytesseract支持哪些图像文件格式?
阅读全文