pytesseract 中文
时间: 2023-11-09 14:50:06 浏览: 90
Pytesseract 是一个基于 Python 的 OCR(Optical Character Recognition,光学字符识别)库,可以用于将图片中的文字转换为文本。它支持多种语言,包括中文。
要在 Pytesseract 中使用中文,需要先安装中文语言包。以下是安装步骤:
1. 安装 Tesseract OCR
在 Windows 系统中,可以在 https://github.com/UB-Mannheim/tesseract/wiki 下载 Tesseract OCR 的安装包并安装。在 Linux 系统中,可以使用包管理器或者源代码编译安装。
2. 安装中文语言包
在 https://github.com/tesseract-ocr/tessdata 下载中文语言包 chi_sim.traineddata,并将其复制到 Tesseract OCR 的安装目录下的 tessdata 文件夹中。
3. 安装 Pytesseract
可以使用 pip 命令来安装 Pytesseract:
```
pip install pytesseract
```
安装完成后,即可在 Python 中使用 Pytesseract 进行中文 OCR。以下是示例代码:
```python
import pytesseract
from PIL import Image
# 打开图片
image = Image.open('image.png')
# 识别中文文本
text = pytesseract.image_to_string(image, lang='chi_sim')
# 输出识别结果
print(text)
```
其中,lang 参数指定要使用的语言,'chi_sim' 表示简体中文。
阅读全文