首页pytesseract 中文

pytesseract 中文

时间: 2023-11-09 22:50:06 浏览: 99

Pytesseract 是一个基于 Python 的 OCR（Optical Character Recognition，光学字符识别）库，可以用于将图片中的文字转换为文本。它支持多种语言，包括中文。要在 Pytesseract 中使用中文，需要先安装中文语言包。以下是安装步骤： 1. 安装 Tesseract OCR 在 Windows 系统中，可以在 https://github.com/UB-Mannheim/tesseract/wiki 下载 Tesseract OCR 的安装包并安装。在 Linux 系统中，可以使用包管理器或者源代码编译安装。 2. 安装中文语言包在 https://github.com/tesseract-ocr/tessdata 下载中文语言包 chi_sim.traineddata，并将其复制到 Tesseract OCR 的安装目录下的 tessdata 文件夹中。 3. 安装 Pytesseract 可以使用 pip 命令来安装 Pytesseract： ``` pip install pytesseract ``` 安装完成后，即可在 Python 中使用 Pytesseract 进行中文 OCR。以下是示例代码： ```python import pytesseract from PIL import Image # 打开图片 image = Image.open('image.png') # 识别中文文本 text = pytesseract.image_to_string(image, lang='chi_sim') # 输出识别结果 print(text) ``` 其中，lang 参数指定要使用的语言，'chi_sim' 表示简体中文。

阅读全文